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Yves Tillé 


Chapitre 1 


Éléments d’algèbre linéaire 


1.1 Espace vectoriel 


1.1.1 Vecteur 


Un élément de R” est une suite ordonnée de n éléments de R. On peut disposer cette suite, appelée 
vecteur soit en ligne, soit en colonne. 


Exemple 1.1 Le vecteur a—[3 0], est un vecteur ligne et le vecteur 


3 
b= | —-2 
0 


est un vecteur colonne. 


La transposition transforme un vecteur ligne en vecteur colonne et réciproquement. 


Exemple 1.2 Sia—(3 O),la transposée de a est 


1.1.2 Multiplication par un scalaire et addition 
On peut multiplier un vecteur par un scalaire Soit un scalaire c € R et un vecteur colonne a de R”, alors 
ai Ca 
cCXa—cXx : = 
An Can 
Deux vecteurs lignes (ou deux vecteurs colonnes) peuvent s’additionner s’ils sont de même dimension. 


ai b: &ai + b1 


An by An Du by 
En utilisant la multiplication par un scalaire et l’addition, on peut définir une combinaison linéaire de 


deux vecteurs a et b : 
ai bi C1@1 + Cobi 


Cia + c2b = CI : + C2 : — 


An bn Cidn T C2 bn 


où C1, ER. 


1.1.3 Définition d’un espace vectoriel 
On se réfère à la définition suivante : la définition suivante : 


Définition 1.1 Soit K un corps commutatif d’élément unité noté 1. On nomme espace vectoriel sur K, un 
ensemble E muni d’une loi de composition interne (+) conférant à E la structure de groupe commutatif ou 
abélien, et d’une seconde loi dite externe, application de EXK dans E notée (x), aussi appelée multiplication, 
faisant intervenir les éléments de K, appelés scalaires. Cette loi externe doit vérifier les axiomes suivants, 
tz,yEE, a,bE K désignant des scalaires : 


1 ax(x+y)=axx+ax y (distributivité) 
2. (a+b)xx=axzx+bx x (distributivité) 
3. a x (b x x) = ab x x (associativité) 


4 1Xx=x 


Si on prend K = R, on vérifie que R” doté de la loi interne + et de la loi externe X est un espace vectoriel. 


1.1.4 Vecteurs linéairement indépendants 


Définition 1.2 Les vecteurs u:,...,u;,...,uy sont dit linéairement indépendants, si 


&ajüi + au + ---+ajuz = 0 


implique que a = a2 =---.—= ag = 0. 


1.1.5 Sous-espace vectoriel 


Définition 1.3 Un sous-ensemble non-vide V de R” est un sous-espace vectoriel, si pour tous u, v € V, 
IL'u+ve V, 
2. au € V pour tout a € R. 


1.1.6 Système générateur d’un sous-espace vectoriel 
Définition 1.4 Un ensemble de p vecteurs u1,...,u, du sous-espace vectoriel V forment un système générateur 
de V si et seulement si 

1. u1,...,u, sont tous différents de O, 


2. pour tout v € V, on peut écrire V = aiü1 + --: + app. 


1.1.7 Base d’un sous-espace vectoriel 


Définition 1.5 Un ensemble de p vecteurs u1,...,u, du sous-espace vectoriel V forment une base de V si 
et seulement si 
1. ils sont linéairement indépendants, 


2. ils forment un système générateur de V. 


Autrement dit, tout vecteur de V peut s’écrire comme une combinaison linéaire de u1,...,uy. 


1.1.8 Base canonique de R” 


La base canonique de R” est 


i\ f0\ /0 0 
o fil [o 0 
0 F, 0 1 l 7 7 0 
0/7 \o/ \o 1 


1.1.9 Dimension d’un sous-espace vectoriel 


Définition 1.6 La dimension d’un sous-espace vectoriel est le plus petit nombre de vecteurs suffisants pour 
l’engendrer. 


Cette dimension correspond en particulier au nombre de vecteurs constituant une base quelconque de V. 


1.2 Espace euclidien 


1.2.1 Produit scalaire 
On définit la multiplication d’un vecteur ligne a par un vecteur colonne b comme le résultat scalaire : 
bi 


axb=—(a...an) X : = Ÿ a;b. 
bn i=1 


Le produit scalaire de deux vecteurs colonnes u et b de même dimension est noté < u,b > et est défini 
par : 
bi 


<u,b>=ub={u;...u») X : = Ÿ wub, 
bn Fe 


Définition 1.7 Un espace euclidien est un espace vectoriel muni d’un produit scalaire. 


1.2.2 Norme 


Définition 1.8 La norme (ou longueur) d’un vecteur colonne u est 


ul] = V<u,u >. 


vecteur de norme égale à 1 est dit normé. 


1.2.3 Distance entre deux vecteurs 


Définition 1.9 La distance entre les vecteurs u et v de R" est définie par 


Définition 1.10 La projection d’un vecteur u sur un vecteur v est définie par 


<U,V>V 


1.2.4 Vecteurs orthogonaux 


Définition 1.11 Deux vecteurs non-nuls u et v de R" sont orthogonaux si 
<u,v >=t(. 

On note alors uLv 

Théorème 1.1 {de Pythagore) Si u et v sont orthogonaux, alors 


Ja + vi? = al? +1. 


1.2.5 Orthogonal d’un sous-espace vectoriel 


Définition 1.12 Un vecteur u est orthogonal à un sous-espace vectoriel V si et seulement si il est orthogonal 
à tous les vecteurs de V, on note alors 
uLV. 


Définition 1.13 Les sous-espaces V et W sont dits orthogonaux, si tout vecteur de V est orthogonal à tout 
vecteur de W. 


Définition 1.14 L'ensemble de tous les vecteurs orthogonaux à V est appelé l’orthogonal de V et est noté 
ee 


Propriété 1.1 
= (VL)L = v 
-Vnvtzt{o}. 


1.3 Application linéaire et matrices 


1.3.1 Application linéaire 


Une application f(.) de R7 dans R7 est dite linéaire si pour tous u, v, de R? et tout a € R 
- f(u+v)= f(u) +/f(v), 
— f(au) = af(u). 


1.3.2 Matrice 


Une matrice est un tableau de nombres. Par exemple : 


@11 5 dij Pate a1J 
A — Qi1 …. Qi …. QiJ 
&]1 CPR QI; …. QIJ 


est une matrice de J lignes et de J colonnes. 

En statistique, on manipule souvent des matrices. Par convention, les lignes représentent souvent les 
unités statistiques, et les colonnes des variables. 

Comme les vecteurs, les matrices peuvent être multipliées par un scalaire. On peut également additionner 
deux matrices à condition qu’elles aient le même nombre de lignes et de colonnes. Sous cette même condition, 
on peut aussi définir une combinaison linéaire de deux matrices. 


1.3.3 Produit d’une matrice et d’un vecteur 


Soient une matrice À de dimension 1 x J et un vecteur colonne u de dimension J le produit Au est 
donné par 


Ej cuyt 

@ji1 :.. @ij -:.: @iJ U1 j=1 MU 
Au — = [57 

U — il -.. dij RE QiJ X Uj = Dj Gij us 

@I1 +. QIj :.. QAIJ UJ . ar:U: 

j=1 T4 


Le produit d’un vecteur par une matrice est la représentation d’une application linéaire dans la base cano- 
nique. 


1.3.4 Produit matriciel 


Soient deux matrices À de dimension 1 x J et B de dimension J x K, alors le produit de ces deux matrices 
est donné par 


a11 . @15 . Q@1J b11 …. dir de biK 
AB — di1 …. dij .. QiJ X bji .. bjr te bjK 
ar1 GI; GI] bi bjr bjk 
C11 C1k C1K 
—= Ci1 . Cik .. CiK 
CI1 -.- CIk CIK 
_ C, 


J 
Cik — NS Qij0jk. 
j=1 
C’est le produit des lignes par les colonnes. La matrice C est de dimension (7 x K). 


1.3.5 Transposition 


Transposer une matrice revient à remplacer les lignes par les colonnes et vice versa. Par exemple, si 


—1 2 
A=| 4 3] alors A! — 7 : ”) ! 
—2 5 


Remarque 1.1 Soient A,B,C de dimension respectives (1 x J),(J x K) et (K x L), alors la transposée 


de ABC vaut 
(ABC) = C'B'A’. 


1.3.6 Matrices carrées, symétriques et diagonales 


Définition 1.15 Une matrice est dite carrée si elle a le même nombre de lignes et de colonnes. 


Si un vecteur de dimension n est prémultiplié par une matrice carrée n x n, le résultat est donc aussi de 
dimension n. Une matrice carrée n x n est donc une application linéaire de R” dans R?. 


Définition 1.16 Une matrice est dite symétrique si elle est égale à sa transposée. 
Une matrice symétrique est donc toujours carrée. 


Définition 1.17 Une matrice est dite diagonale, si elle est carrée et que tous ses éléments extradiagonaux 
sont nuls. 


Par exemple, 


6 O0 0 
D=10 -2 0 
0 0 3 


est une matrice diagonale. 


Définition 1.18 Une matrice identité T est une matrice diagonale dont tous les éléments de la diagonale 
sont égaux à 1. 


Par exemple, 


est une matrice identité de dimension 3 x 3. 


1.3.7 Rang d’une matrice 


Définition 1.19 Le rang d’une matrice est le nombre maximum de lignes (ou de colonnes) linéairement 
indépendantes. 


Propriété 1.2 Le rang est toujours inférieur ou égal au minimum du nombre de lignes et du nombre de 
colonnes de la matrice. 


Définition 1.20 Si le rang de la matrice est égal au minimum du nombre de lignes et du nombre de colonnes, 
la matrice est dite de plein rang (ou de rang maximal). 


Propriété 1.3 Le rang d’un produit de matrices est inférieur ou égal au rang de chaque matrice. 


1.3.8 Trace d’une matrice 


Définition 1.21 La trace d’une matrice carrée est la somme des éléments de sa diagonale. 


Propriété 1.4 1. trace(A + B) = trace(A) + trace(B). 
2. trace(AB) = trace(BA) mais trace(AB) £ trace(A)trace(B). 


1.3.9 Matrices inversibles 


Définition 1.22 Une matrice carrée À est dite inversible, s’il existe une matrice A! qui vérifie AA! — 
ATTA = I. 


Propriété 1.5 Si une matrice carrée est de plein rang, alors elle est inversible. 


1.3.10 Inversion par parties 


Soit une matrice F composée de quatre sous-matrices : 
A B 
F = À 
Les matrices A et D sont carrées et inversibles. 
La technique d’inversion par partie permet d’obtenir l’inverse de F. 


p_f{A '+A 'BQCA ! -A 'BQ 
E -QCA Q 


où 
Q=(D-CA-!B) 


Ce résultat peut être démontré aisément en réalisant le produit F-!F. 


1.3.11 Déterminant 
Définition 1.23 Le déterminant d’une matrice carrée À (J x J) est noté 
Si J = 1, |A] = A 
- SiJ>1, 


A| et est défini par 


à 
JAI = D (1) Mila, 
i=1 
pour tout j fixé, où |M;;| est le mineur de a;;. Le mineur est le déterminant de la matrice (J—1)x(J—1) 
obtenue en enlevant la colonne à et la ligne j de la matrice A. 


Exemple 1.3 Soit À une matrice (2 x 2), 
a b 
a-(s à) 


[AÏ=axd-—cxb= ad cb. 


On peut aussi calculer le déterminant de A en prenant j = 2. 


en prenant j = 1,on a 


Exemple 1.4 Soit une matrice À de dimension (3 x 3), le calcul se fait en prenant j = 1 
2: 1° 6 
A=!9 5 1 
4 3 8 
alors son déterminant vaut 
6 6 
|A] 8 1 |* 4 


Il 


3 8 3 
(5xX8—-1xX3)x2—-(7xX8—3 
= 37x2—-38x9—-23x4 

—360. 


la 7 


«2-| 


«9+| 


ré 
5 
x 


6)xX9+(7x1—6%x 5) x 4 


Propriété 1.6 


1. [AT = A", 
2. [AB} = |A|IB}, en particulier [AF| = |A/F. 
3. |[cA] = c/|A|, {où A est de dimension J x J), 


1.3.12 Quelques propriétés 

Propriété 1.7 En général, si À, B et C sont des matrices carrées de même dimension, on a 
1. AB £ BA, 

. A+B=B+A, 

. (AB)C = A(BC), 

AlIl=A=IA,oùl est une matrice identité, 

. (ABC) = C'B'A', 

. trace(AB) = trace(BA), 

. trace(A + B) = trace(A) + trace(B), 

. det A = detA, 

: (ABC)! =C 1B AT. 
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1.3.13 Matrices orthogonales 


Définition 1.24 Une matrice T est dite orthogonale si son inverse est égale à sa transposée : 


r'=r 1. 


1.3.14 Valeurs propres et vecteurs propres 
Définition 1.25 Soit À une matrice J x J. À; est une valeur propre de À si À; est une solution de l’équation 
[A — AI) = 0. 
Propriété 1.8 
— Une matrice carrée symétrique de dimension J X J possède toujours J valeurs propres. 


— La trace d’une matrice carrée est toujours égale à la somme des valeurs propres. 
— Le déterminant d’une matrice carrée symétrique est toujours égal au produit de ses valeurs propres. 


Définition 1.26 Le vecteur u; £ 0 est un vecteur propre de À associé à la valeur propre À; si 
Au; —= ÂUi. 


Propriété 1.9 Si À est une matrice J x J réelle symétrique, il existe J vecteurs propres normés et ortho- 
gonaut. 


Théorème 1.2 {de diagonalisation) Soient À une matrice symétrique (J X J), et u;, À;,i = 1,...,J, ses 
valeurs propres et vecteurs propres associés. Soient la matrice orthogonale T dont les colonnes sont les J 
vecteurs propres de À, et la matrice diagonale À ayant sur sa diagonale principale les J valeurs propres. 
Alors 

- T'AT — A, 

- A=TAT'. 


1.3.15 Formes et applications linéaires, formes quadratiques 


Définition 1.27 Soient À une matrice (I x 1), B une matrice (J x I), a un vecteur colonne de R? et b 
un vecteur colonne de dimension I. On appelle 
— forme linéaire définie par le vecteur a!, l'application de R! dans R 


a'b, 
— application linéaire de R! dans R? définie par la matrice B, 
Bb, 
— et forme quadratique définie par la matrice À, l’expression 
b'Ab. 
Définition 1.28 Une matrice À de dimension (I X I) est dite définie positive si 
b'Ab > 0, 
pour tout b € R/\{0}. 
Définition 1.29 Une matrice À de dimension (I x I) est dite semi-définie positive si 


b'Ab > 0, 


pour tout b € R!. 


Propriété 1.10 Une condition nécessaire et suffisante pour qu’une matrice soit définie positive (resp. semi- 
définie positive) est que toutes ses valeurs propres soient strictement positives (resp. positives ou nulles). 


Propriété 1.11 Pour toute matrice D, la matrice D'D est semi-définie positive. 


Démonstration 
En posant a — Db la forme quadratique b'D’Db peut s’écrire 


b'D'Db=aa=ÿ a?>0. 


Propriété 1.12 Une matrice définie positive est toujours inversible. 


1.3.16 Image et noyau d’une matrice 


Définition 1.30 Le noyau d’une matrice À de dimension I x J est le sous-espace de R? défini par 
Ker(A) = {u € R’|Au — 0}. 


La définition implique que tous les vecteurs de Ker(A) sont orthogonaux à tous les vecteurs lignes contenus 
dans la matrice A. 


Définition 1.31 L'image d’une matrice B de dimension I x J est le sous-espace de R1 défini par 
Im(B) = {xE€ R!| il existe u € R? tel que Bu — x}, 
Le sous-espace Im(B) est l’ensemble des vecteurs qui peuvent s’écrire comme une combinaison linéaire des 


colonnes de B. L’image de la matrice B est souvent appelé sous-espace engendré par les colonnes de B. La 
dimension de l’image de B est égale au rang de B. 


Remarque 1.2 Le sous-espace Im(B) est l’orthogonal de Ker(B'). 


Propriété 1.13 Si u € Im(B) et v € Ker(B), alors u et v sont orthogonaux. 


En statistique, on utilise souvent des matrices X (individus-variables) de dimension n x p avec n > p. Le 
sous-espace engendré par les colonnes de X est l’image de X. 


1.4 Projection et matrice idempotente 


1.4.1 Projection 
L'opération de projection se déduit du théorème suivant : 
Théorème 1.3 Soit V un sous-espace vectoriel de R”, alors tout vecteur u € R” se décompose de manière 
unique en une somme d’un vecteur de V et d’un vecteur de V+. 
1.4.2 Projection orthogonale 


Définition 1.32 Soit V un sous-espace de R”, l’application linéaire qui à un vecteur u fait correspondre un 
vecteur u* tel que u — u* soit orthogonal à V est appelé projection orthogonale (u* € V'). 
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1.4.3 Projection orthogonale dans l’image et le noyau d’une matrice 


Le projecteur orthogonal dans l’image d’une matrice X de plein rang de dimension n x p avec n > p est 
donné par 
Px=X(X'X) !'X’ 
Le projecteur orthogonal dans le noyau d’une matrice X’ de plein rang de dimension n X p avec n > p 


est donné par 
P£=I-X(X'X) !X'=I1-Px. 


Remarque 1.3 Si X = v est un vecteur, alors le projecteur est 


l'a4 
P,=v(v'v) lv = vliv|| 2v = 
i vi? 
et la projection de u sur v 
pu) = Peu = vu = 0? 
: "IN IvIÉ 


ce qui correspond à la définition donnée en (1.10). 


1.4.4 Matrice idempotente 
Définition 1.33 Une matrice P est dite idempotente si PP = P. 


Une matrice de projection est idempotente. 


Remarque 1.4 Les matrices P x et PE sont évidemment idempotentes, en effet 


PxPx = {X(XX) IX} {X(X/X) IX") 
= X(X'X) I X'X(X/X) 1 X 
=I 


= X(XX) !X'=Px. 


De plus 
P£LP£=(I-Px)({-Px)=1-2Px+PxPx=1-Px=P#. 


= Px 


Le projecteur orthogonal dans le noyau d’une matrice X’ de plein rang de dimension n X p est donné par 
PL=I-X(X'X) {X'=I1-Pyx. 
Théorème 1.4 Toutes les valeurs propres d’une matrice idempotente valent 1 ou 0. 


Démonstration 
Un vecteur propre non-nul u d’une matrice P doit satisfaire au système d’équation 


Pu = lu, (1.2) 


où À est la valeur propre associée à u. En multipliant (1.2) par P, on obtient 


PP u = PAu, 
SZ 
P 
et donc, 
du = Yu. 


En prémultipliant par u’ on a 


on obtient donc 
À= ?, 


ce qui n’est vérifié que si À vaut 0 ou 1. 
Comme la trace d’une matrice carrée est aussi la somme de ses valeurs propres, la trace d’une matrice 
idempotente est le nombre de valeurs propres non-nulles, ce qui donne la propriété suivante. 


Propriété 1.14 La trace d’une matrice idempotente est égale à son rang. 


Remarque 1.5 Le rang et la trace de X(X/X) !X’ sont égaux au rang de la matrice (X/X) !. Cette 
matrice est supposée de plein rang (sinon X’X ne serait pas inversible). Le rang de (X/X) ! et donc de 
Px = X(X'X) !X/ est donc égal au nombre de colonnes de X. Le rang de Px est la dimension du sous- 
espace sur lequel projette P x. 


1.4.5 Projecteurs obliques 


Il existe des projecteurs non-orthogonaux. On parle alors de projecteurs obliques. Soit Z une matrice 
ayant le même nombre de lignes et de colonnes que X, alors 


Po=X(Z'X) ‘7 
est un projecteur oblique. Il est facile de vérifier que la matrice PQ est idempotente et qu’elle projette sur 
l’image de X. 
1.4.6 Théorème des trois perpendiculaires 
Théorème 1.5 Soit V et W deux sous-espaces vectoriels tels que V C W, alors 


PyPw = PwPv = Pv. 


1.5 Dérivée par rapport à un vecteur 
1.5.1 Gradient 
Soit une fonction f(.) de R? dans R : 
FO = GR me 


On suppose en outre que toutes les dérivées partielles existes. On appelle gradient de f(.) le vecteur des 


dérivées partielles : 
ga = 2 (21 of æL). 


0x \0m' 0x; or 


1.5.2 Derivation d’une forme linéaire 


Soit a un vecteur de R?, alors 


Oa'x É par ON ed OS pat ) 


ox die NU CGn, PO D 


1.5.3 Derivation d’une application linéaire 


Soit À une matrice de dimension q x p, alors 


Danse 
D ji M5 T5 
P 

Ax= | D 51 GT 


Di GgÿTj 
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dij 
OAXx ‘ 
= Gi 
Gaj 
Donc, 
@11 @1; @ip 11 -.. di :-.. &ip 
OAx | 
ET — Qi ; » | di ; » | dip — | @j1 ji Ajp | — A 
dai Gqj Gap Gq1 os Gqi sas Gap 


1.5.4  Dérivée d’une forme quadratique 
Soit À une matrice de dimension p X p, alors 
pp p pp 
2 
x 'Ax . ÿ Ds dijLilj — ÿ diit; + ÿ D dijLiTj. 
i=1 j=1 i=1 i=1 j=1 
Ji 


Donc, 


p 
0x'Ax : 
9x = 24kkTr + ) ART + ) GikTi = ) ak5T + ) GikTi; 
F j£k iZ£k j=1 i=1 
et ” 
p 
Di MjEÿ + Dir GT 


P P ! 
= [Dir ant; + Dies Gixti | = Ax + A'x. 


p x: + SP Ts 
= QpiTj + D ii GipTi 
Si la matrice A est symétrique, on à 
0x Ax 
0x 


= 2Ax 


Exercices 


Exercice 1.1 


Calculez 
0(y — Xb)'(y — Xb) 


0b ; 
où yER”,bEe R”,et X est une matrice de dimension n X p. 


Exercice 1.2 


1. Construisez des projecteurs orthogonaux P:,P2,P3, sur des sous-espaces engendrés par les colonnes 


des matrices 
T1 1 T1 


La 
l 


; X2 Li : X3 —= 1 Li 


Ta 1 x, 
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2. Construisez les trois projecteurs qui projettent sur l’orthogonal des sous-espaces engendré par les 
colonnes de X1, X2,X3. 


3. Vérifiez que ces 6 projecteurs sont des matrices idempotentes. 


4. Projetez le vecteur 


V1 
Y — | Yi 
Un 
au moyen de ces 6 projecteurs. 
Exercice 1.3 Soient les matrices 
T1 1 T1 
1 
A — : B=l|xl,C=-|1 x; 
1 ; 
Le 1 x, 
Décomposez le vecteur z = (z1,...,2z,) en fonction de ses projections sur respectivement 


1. Ker(A’) et  Im(A) 
2. Ker(B') et Im(B) 
3. Ker(C') et Im(C). 


Exercice 1.4 Soient les matrices 


1 0.0 1 O0 0 1/5 3/5 
[0 10), 2[0 11}, 8{3% os 
0 O0 1 0 0 0 
a (is a) 5 et AE 1) 
4/9 16/9 CT. l'A) 


Calculez 
1. leur rang 
2. leur trace. 


Quelles sont les matrices idempotentes et orthogonales ? 
Avec les matrices idempotentes, projetez le vecteur ( T1 T2 ) ou ( T1 2 T3 ) selon leur dimension. 


Exercice 1.5 Soient X et Z, deux matrices de plein rang de dimension n x p définissant le même sous-espace 
vectoriel. 
1. Donnez l’application linéaire (la matrice) permettant de passer de X à Z et réciproquement. Cette 
matrice est définie en fonction de X etZ. 
2. Montrez que les projecteurs orthogonaux sur les sous-espaces engendrés par les colonnes de X et Z 
sont égaux. 
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Exercice 1.6 Soient les matrices 


Construisez les projecteurs sur 


notés respectivement P 4 et P3. 


1 x 
1 . 
A=|:1,B=—1|1 x; 
1 
1 


Im(A) Im(B) 


Si Im(A) C Im(B) vérifier le théorème des 3 perpendiculaires. 
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Chapitre 2 


Géométrie des moindres carrés 


2.1 Série statistique bivariée 


On s'intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n unités d'observation. 
Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples des 
valeurs prises par les deux variables sur chaque individu : 


Cris gt)s ses (di, Yi), SEE Gus) 


Chacune des deux variables peut être soit quantitative, soit qualitative. 


2.1.1 Représentation graphique de deux variables 


Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombres (entiers ou 
réels) peut toujours être représenté comme un point dans un plan 


(t1,Yy), ÉrererS CE Yi); CAE Cu 
Exemple 2.1 On mesure le poids Y et la taille X de 20 individus. 


TAB. 2.1 — Taille et poids de 20 individus 


60 155 | 75 180 
61 162 | 76 175 
64 157 | 78 173 
67 170 | 80 175 
68 164] 85 179 
69 162 | 90 175 
70 169 | 96 180 
70 170 | 96 185 
72 178 | 98 189 
73 173 | 101 187 


2.1.2 Analyse des variables 
Les variables x et y peuvent être analysées séparément. On peut calculer tous les paramètres dont les 
moyennes et les variances : 
21 1 . 
F2 = (x; — &)°, 
i—= 


1 


nm 


u 
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8 — o 
o 
o o 
S — (e] 
o 
8 
È 8. À. 
9. o 
9 o 
© 
o - OO 
O4 : 
o 
8 Lo ë 
I I I I I I I I 
155 160 165 170 175 180 185 190 
taille 


F1G. 2.1 - Le nuage de points 


nm 


SG). 


i=1 


SRE 
Sir 


ÿ = 


n 
Ù Be 

Vi, Sy — 
i=1 


Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales, écarts-types 
marginaux, etc. 


2.1.3 Covariance 


La covariance est définie 


Remarque 2.1 
— La covariance peut prendre des valeurs positives, négatives ou nulles. 
— Quand x; = y;, pour tout à = 1,...n, la covariance est égale à la variance. 
— La covariance peut également s’écrire 


1€ = 
i=1 


2.1.4 Corrélation 


Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux 


Ty 2° 


2 
SES y 


Remarque 2.2 


— Le coefficient de corrélation mesure la dépendance linéaire entre deux variables. 
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2.1.5 Droite de régression 


La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres carrés. 
On considère que la variable X est explicative et que la variable Y est dépendante. L’équation d’une 
droite est 
y = a + bx. 


Le coefficient a est appelé la constante, et le coefficient b la pente de la droite de régression. Le principe des 
moindres carrés consiste à chercher la droite qui minimise 


(a, b) 25 ha br). 
i=1 


Le minimum s'obtient en annulant les dérivées partielles par rapport à a et b. 


OM(a, b) 

a 2 ARS 
OM(a, b) T 

36 Re 


On obtient un système de deux équations à deux inconnues, qui peuvent également s’écrire 


ÿ= = a +bx 
Dean 0e 0 
La première équation montre que la droite passe par le point (x, ÿ). De plus, on obtient 
a = ÿ — dt. 


En remplaçant a par sa valeur dans la seconde équation divisée par n, on à 


Dei -0e Sat 
i=1 i 


i=1 i=1 
Sxy bs? 
= O0, 
ce qui donne 
S 
p= Êeu 
S% 
LL ET Sey- 
a —Y— T2 Ÿ 
S% 
La droite de régression est donc 
Say — Ty 
Y=Y—- TES ZT, 
Sx FA 


ce qui peut s’écrire aussi 


Remarque 2.3 La droite de régression de y en x n’est pas la même que la droite de régression de x en y. 
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F1G. 2.2 - La droite de régression 


S:.:2 © 
Q 
oo 
8 
o] 8 | 
© 
R 
8 — © 
T T T T T T T 
155 160 165 170 175 180 185 190 
taille 


2.1.6 Résidus et valeurs ajustées 


Les valeurs ajustées sont obtenues au moyen de la droite de régression : 
yi = à + bxi. 


Les valeurs ajustées sont les “prédictions” des y; réalisées au moyen de la variable x et de la droite de 
régression de y en x. 


Remarque 2.4 La moyenne des valeurs ajustées est ÿ. 
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante : 


Ci = Yi — Yi. 


Les résidus représentent la partie inexpliquée des y; par la droite de régression. 


Remarque 2.5 
— La moyenne des résidus est nulle : 


— De plus, 


ÿ Lili — 0. 


i=1 


2.1.7 Variance de régression et variance résiduelle 


La variance de régression est la variance des valeurs ajustées. 


où r? est le coefficient de détermination. 


Démonstration 


La variance résiduelle est définie par : 


Théorème 2.2 La variance résiduelle peut également s’écrire 


= si(1 —r?), 


où r? est le coefficient de détermination. 


Démonstration 
1 nm 
s? —= ; e? 
1—= 
LE : 
— n (gi — vi)? 
4= 
1e _ Sxy e è 
=: n 2 { y ra 
1€ 2 sy C 2 Say 1 
= à 2 y — = 
n 2 g)° + si pa ) 82 ae, Z)(yi — Y) 
2 2 
D 2 æy Sxy 
RU A Mr: 
æT A 
2 
=, er 
y 82? 


Théorème 2.3 La variance marginale est la somme de la variance de régression et de la variance résiduelle, 
DD 2 
Sy — Sy + 8e. 


La démonstration découle directement des deux théorèmes précédents. 
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2.2 La régression multivariée 


2.2.1 Représentation matricielle des données 


La matrice 
T11 T15 Tip 
X = | x; Tij Tip 
Tn1 ….. Tnj ….. Tnp 


peut représenter des données statistiques. Plus précisément, on suppose que x;; représente la valeur prise 
par la variable explicative j sur l’unité statistique i. De même, le vecteur y = (y1...y:...Yn) représente 
les valeurs prises par la variable dépendante sur les n unités statistiques. Dans la plupart des applications, 
on supposera également que la première variable est la constante, c’est-à-dire que x;1 = 1,ù = 1,...,n. 
(Néanmoins, il est intéressant dans certains cas particulier d’utiliser une régression sans constante.) On 
supposera alors que la matrice est de la forme : 


1 T2 T1; Tip 
X = |1 x; Tij Tip 
IL Tn2 ….. Tnj ….. Tnp 


Dans ce qui suit, on suppose toujours que la première variable est une constante. Si ce n’est pas le cas, nous 
le notifierons expressément. 


2.2.2 Principe des moindres carrés 
La régression de y en X au sens des moindres carrés consiste à chercher l’ajustement qui minimise en b : 
Q(b) = ||y - Xb|}° = (y - Xb)'(y — Xb), 
où b = (b1...b,)'. Pour obtenir le minimum, de Q(b), on annule le vecteur des dérivées 


2Q(b) _ 


ce qui donne la valeur de b : 
X'Xb = X’y. 


En faisant l’hypothèse que X’X est inversible, on peut déterminer b : 
b=(X'X) ‘X'y. 


2.2.3 Valeurs ajustées et résidus 


Le vecteur des valeurs ajustées est le vecteur des prédictions de y au moyen de X et de b, c’est-à-dire 


y“ = Xb= X(X'X) IX y. 
—— — 
Px 


Le vecteur des valeurs ajustées peut être interprété comme la projection de y sur le sous-espace engendré 
par les colonnes de la matrice X. 
ÿ" =Pxy, 


où P x est un projecteur (c’est-à-dire une matrice idempotente) sur le sous-espace engendré par les colonnes 
de X. 


Le vecteur des résidus est la différence entre y et y*. 
e=y-y" =y-Xb=y-X(X'X) !X/y—(I-X(X/X) !X')y. 


Le vecteur des valeurs ajustées peut également être interprété comme la projection de y dans le noyau de 
X’ (ou l’orthogonal du sous-espace engendré par les colonnes de X). 


e= Pxy, (2.1) 
où P£ est un projecteur (c’est-à-dire une matrice idempotente) sur le noyau de X’. 
P£=I-X(X'X) x’. 
Propriété 2.1 
Ye 


— y* est une combinaison linéaire des colonnes de X, 


- y* ete sont orthogonaurx, 
e est orthogonal avec toutes les colonnes de X, c’est-à-dire e'X = 0. 


[ 


2.2.4 Variance de régression et variance résiduelle 
Soit le vecteur de R” contenant n fois la moyenne de la variable y : 
ÿ = (u...,9). 


La variance peut être définie simplement par : 


La variance résiduelle est la variance résiduelle : 


2 1 / 1 *\/ * 1 = #x\2 1 _ 2 
Se tr € M 20 ES Oo 0 LE D (Wu) : niCt 
i=1 i=1 
2.2.5 Coefficient de détermination 
Le coefficient de détermination vaut 

= 2 = se 
82 82° 
y y 


Il est important de noter que le R? ne peut être calculé que si la régression inclut une constante. Si ce n’est 
pas le cas, le R? peut prendre des valeurs négatives. Le racine carrée du coefficient de détermination est 
appelée le coefficient de corrélation multiple. 


2.3 Matrice de variance-covariance et matrice de corrélation 
Si la première colonne de la matrice X contient uniquement des 1, alors ont peut calculer les covariances 


entre les p— 1 dernières variables. La matrice variance-covariance, de dimension (p—1) x (p—1), des variables 
explicatives est 


2 
S2 ….. S2j ….. S2p 
— . ….. 2 ….. S 
Z = |5s,2 5 Sip |, (2.2) 
| 2 
Sp2 Spj Sp 


et 
nm 
1 
2 — …. — %:)2 
Sri > (œiÿ — 25)". 
n < 
i=1 
Si la première colonne de la matrice X est une constante, alors la matrice variance-covariance est une matrice 


de dimension (p — 1) x (p — 1) correspondant aux p — 1 dernières colonnes de X. 
On peut également construire la matrice diagonale des écart-types : 


Sin, ue D Ù 2 Ÿ 
S—|10 :.. s; .. 0 
0 (à) Sp 
La matrice des corrélations : 
1 T2; T2p 
R —= T2 1 Tip ; 
Tp2 Tpj 1 
est obtenue par 
R=S ES 1. 


2.4 Corrélations partielles 
Soit deux variables y et z et le vecteur de leurs valeurs y et z sur les n unités de l’échantillon. La matrice 


idempotente P£ =I-—X(X/X) !X’ permet d'obtenir 
— le vecteur des résidus de la régression de y en X 


ÿ 
EylX — Pxy, 
— le vecteur des résidus de la régression de z en X 
£ 
ex = Pxz. 


Le coefficient de corrélation partielle est le coefficient de corrélation entre e,,x et e,,x. Si la première 
colonne de la matrice X contient une colonne de constante, alors ce coefficient s'écrit 


! 
x 221X y'P£z 


: f: ‘ 
Veux eux x ex Vy'Pxv7P+z 


T'yz|te,.…., tp = 


Le coefficient de corrélation partielle mesure la corrélation entre les variables y et z auxquelles on a enlevé 
la partie explicable par les variables de X. 
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2.5 Condition pour que la somme des résidus soit nulle 


La matrice X peut contenir une variable constante de manière explicite, c’est-à-dire qu’une des colonnes de 
cette matrice contient une variable constante. La constante peut également être définie de manière implicite, 
ce qui signifie qu’il existe une combinaison linéaire des colonnes de X qui permet d’obtenir une colonne de 
uns. Formellement, on suppose qu'il existe un vecteur À de RP? tel que XÀ = 1, = (1 -:: 1 --: 1)’. 


Théorème 2.4 Si la matrice X contient une variable constante définie de manière explicite où implicite, 
alors la somme des résidus est nulle. 


Démonstration 
On a 


nm 


ÿ Ej — 1,e 
i=1 
Or, il existe un vecteur À de R? tel que XÀ = 1,. On obtient donc 


> Ej — N'X'e 
i=1 


= N'X'{I-X(X'X) X/}y 


= XX - \'X'X(X'X) !X' 0 y 
ns, —]/ 
I 


Une autre manière d’aboutir à ce résultat, consiste à se remémorer que le vecteur de résidus est toujours 
orthogonal aux variables explicatives, c’est-à-dire 


e'X — 0. 
Or, s’il existe un vecteur À de R? tel que XÀ = 1,, alors 
e'XA =e/1, =0/À = 0. 


Si la somme des résidus est nulle, la moyenne des valeurs ajustées est égale à la moyenne des valeurs 
observées, autrement dit 
nm nm 
1 se il : 
_ > CR ) Yi — Y. 
n < n < 
i=1 i=1 


2.6 Décomposition en sommes de carrés 


Théorème 2.5 Soit une régression pour laquelle la constante est une variable explicative (éventuellement 
définie de manière implicite), alors la somme des carrés totale des écarts à la moyenne 


SCrot = (y — ÿ) (y — 5) = D (ui - 3) 


se décompose donc en une somme de deux termes : 
— la somme des carrés expliquée par la régression, 
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— la somme des carrés des résidus 


nm nm 


SCres = ee = Su = y) — > ef. (2.3) 


i=1 i=1 
Démonstration En notant y le vecteur de R” contenant n fois la moyenne Y, on a 
V=Y=Y eye. 


Donc, 


* 


G-5)-5)=("-5ÿ+e)(y" -ÿ+e) = (7-5) (y"-ÿ)+e'e+2e(y* —-ÿ) 
ore et (y* — ÿ) sont orthogonaux. En effet e est toujours orthogonal à y* et, e/ÿ = ÿ>1;_, e;. Or la somme 


des résidus est nulle quand la constante est une variable explicative. Donc e’(y* — ÿ) — 0, ce qui donne 
finalement 


2.7 Régression avec les données centrées 


Supposons que la première colonne de la matrice X soit composée de constantes : 


1 T12 .. T1j .. Tip 
1 LTn2 .. Tnj .. Tnp 


Dans ce cas, la régression multiple s'écrit : 


Yi = 1 + Tiobo + Lisb3 ++ + dibbh + ei. (2.4) 


On peut aussi travailler avec les données centrées. En sommant sur les à et en divisant par n l’équation 
(2.4), on obtient : 
ÿ = b1 + Toba + Tabs +. + To by, (2.5) 


et donc en soustrayant (2.5) à (2.4), on a finalement : 


Yi — ÿ = (via — Ta)bo + (vis — Ta)ba + + (rip — Tp)bp + ei. (2.6) 
Définissons maintenant 
1. b : le vecteur de R?-! composé des p — 1 dernières composantes de b, b = (bs:b5,2450,)" 


2. X : la matrice n x (p — 1) composée des p — 1 dernières colonnes de X, 


T12 T1 Tip 
X = | vo Tij Tip |; 
Tn2 Tnj Tnp 
3. 1—(1,1,...,1) : le vecteur colonne de n uns, 


4. la matrice idempotente qui centre les valeurs : 


1—1/n  —1/n —1/n —1/n 

, —l/n  1—-1/n  —-1/n —1/n 
p.=1- ll | in in 1-1/n —i/n |. (2.7) 

—1/n in En 11 


5. Ye=Pey =y—-1ÿ = —Y—(y1—Y,Y2 —Y,...,Yn — Ÿ) 
6. X,. — P,.X la matrice X centrée 


%12 — Z2 ::: Tij — Tj see Tip — Lp 
X: — Li2 — To Ti T; Tip Tp 
Tn2 — L2 *:: Tnj — Tj or Tnp — Lp 


La régression multiple peut maintenant s’écrire : 
Ye = X,b +e. 
Le vecteur b est évidemment défini par 


X:X: 


! —l y, 
— X.Ye 
D = (X/X.) IX y = (EX ) Ye 
nm 


n 


(2.8) 


Cette présentation est intéressante à plus d’un titre. En effet (X!X.)/n n’est autre que la matrice variance- 
covariance Z donnée en (2.2). 


S2 .. 82; ….. S2p 
j : 
E — KR, 8; 52 5 
= CU 32 î JP | > 
S ….. S + ….. 52 
p2 pj p 


et X/y./n est le vecteur des covariances entre les variables explicatives et la variable dépendante : 


S2y 
Xe 
no Jy 
Spy 
où 
1 nm 
Sjy — _ 27 — Tj)(i — 9), 
i=1 
pour j =2,...,n. 
Comme, … 
Ye=X.b+e, 


la décomposition en somme de carrés vient directement : 
yLYe = (X.b +e)'(X.b +e) = b'X/X.b + e/e + 2e/X.b. 
nn 
0 


Le dernier terme s’annule, car les résidus observés sont orthogonaux aux colonnes de X. On peut donc à 
nouveau décomposer la somme des carrés totales en une somme de deux termes : 


SCtot — SCregr Lo SCres; 


\ 


où 
— Ja somme des carrés totales 


SCiot = YLYce = Su — ÿ)?, (2.9) 
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— la somme des carrés expliquée par la régression, 


SCregr = b'X/Xcb, (2.10) 
car p 
Dis bj(t15 — T5) Yi — Ÿ 
X.b = De bjris —Z;) | = | y —-ÿ 
250 bi(Œnÿ — T;) CET 
et que donc 


D'XIX.b = (y* —ÿ) (y* — 5) = Sy — 5)? = SCregr, 


i=1 
— Ja somme des carrés des résidus 


SCres = ee e. (2.11) 
i=1 


2.8 Retour au cas bivarié 


2.8.1 Méthode 1 


Le cas particulier le plus fréquemment étudié consiste à utiliser deux variables explicatives (p = 2) : une 
constante et une variable x;. Dans ce cas, 


1 T1 
X=1|1 zx; 
live 
On a alors ne 
X'X — ( nr al ï) , 
Pnte Dire 
(XX) 1 = 1 ( Diut. hi ) 
"e Pra ti — Di 2) LD Ti n 
mr À 
n i=1 "à n i=1 ? 
n?s2 . oi Ti n 
_ 1 ns? +nx? —nx 
| n2s2 —ni n 
cn HN 2% 
d ns2 —T dl J? 
où 
n n 2 
a= ren) 
æ : à . î 
il i=1 
De plus, 


ce qui permet de calculer b 


5 = Sxy 
: 1 f(s2 + 22)ÿ — Z(sy + 29) HU 
… / ls ce ol V ay T XY ee 5% 
DEC) xy= 3 5 + (szy + #9) su 
S 


En général, on note 


S 
bi =ÿ— 22 
HA 
et - 
bo = 77 
2 > 
On a finalement le vecteur des valeurs ajustées 
y" — (ui) = Xb, 


avec 


S S S 
gi = 1 X bi + aiba = (ose) at pe (nn 
8% $% 


Le cas bivarié consiste donc à utiliser deux variables explicatives, la première est la constante et la seconde 
est la variable x. 


2.8.2 Méthode 2 


Une autre manière de traiter le même problème est de d’utiliser les données centrées. Dans ce cas, on à 


Yi — Ÿ T1 — 
Y=ly-gl, Xc=|x-x 
Un — Y Ln — 


On obtient L s 
XIX.=ns, Xiye=nssy et b=(XX.) ‘Xiye = +. 


Il reste a déduire b, de l’équation 


ce qui donne 


Exercices 


Exercice 2.1 Au moyen du tableau 2.1, calculez 

1. tous les paramètres marginaux, 

2. la covariance, 

3. la droite de regression de la taille par le poids, 
4. les résidus et les valeurs ajustées, 
5 


. le coefficient de la régression, la variance résiduelle et la variance de régression. 


Exercice 2.2 En quoi consiste la régression, 


1. quand une seule variable x est utilisée, 
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2. quand seule la constante est utilisée, 


3. quand l'échantillon est partitionné en p parties notées U:,...,U, et que x;; — 1 si l'unité + est dans la 
partie j et O0 sinon ? 


Représentez les deux droites de régression, pour les points 1 et 2. 


Exercice 2.3 À partir du tableau 2.2, calculez les coefficients de corrélation et de régression a et b de la 
régression de y en x. 


TAB. 2.2 —- Données pour les variables x et y 


t Ye T+ 
1983 7389.99 8000 
1984 8169.65 9000 
1985 8831.71 9500 
1986 8652.84 9500 
1987 8788.08 9800 
1988 9616.21 11000 
1989 10593.45 12000 
1990 11186.11 13000 
1991 12758.09 15000 
1992 13869.62 16000 

Somme  99855.75 112800 
Moyenne 9985.57 11280 


Exercice 2.4 Application du principe des moindres carrés : 
Soit 
Q(b) = [y — Xb|”, 


qui peut également s’écrire 


2 
n 


p 
Q(b1,...,bp) = > Yi — S_xb, 
j=1 


il 
Annulez les dérivées partielles 
0Q 
—— = 0. 
Ob; 


Ecrivez ensuite ce système de p équations à p inconnues sous forme matricielle. 


Exercice 2.5 (extrait de Cohen and Pradel, 1993) Parmi les relations suivantes donnant y en fonction de 
x et peut être z, quelles sont celles qui peuvent être déterminées à l’aide d’un modèle linéaire ? 


1. y=ar+b 


2. y= ax? +b 
3. y= ar? +bxr+c 
4. y = ax +b 
bye 
1 
6. y = ——— 
: 1 + aexpt? 
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æ—1 
12. y = aln(x) + b2° + c 


Exercice 2.6 Dans un modèle où on cherche un ajustement linéaire de Y sur X et la constante, on dispose 
des résultats suivants portant sur 52 observations : 


y; = 1.286 — 0.43x4, 


z=1.063 s2—0.00137 82 = 0.00686 


TL 


Déterminez successivement les valeurs du coefficient de corrélation linéaire entre X et Y, le coefficient de 
détermination R? et les SCro, SCres et SCregr de la régression. 


Exercice 2.7 Soit une matrice 


1 T1 
X=1|1 zx; 
1 


Calculez le coefficient de corrélation partiel r,.+ et exprimez-le en fonction des coefficients de corrélation 
(non-partiels) ryz, Try €t Tyx 


Exercice 2.8 À partir des données du tableau 2.3, calculez le vecteur des coefficients de la régression des 
Yi en æ1 et jo (avec une constante). Les données sont les suivantes : Indication : travailler avec la matrice 


TAB. 2.3 — Données sur le travail, le capital et la production 


Entreprise(i) Travail(x;) Capital(z;) Production(y:) 
1 7389.99 8000 60 
2 8169.65 9000 120 
3 8831.71 9500 190 
4 8652.84 9500 250 
5 8788.08 9800 300 
6 9616.21 11000 360 
7 10593.45 12000 380 
8 11186.11 13000 430 
9 12758.09 15000 440 


variance-covariance permet de simplifier considérablement les calculs (voir calcul de b dans lexpression 


(2.8)). 
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Exercice 2.9 On procède à l'estimation d’un modèle linéaire avec une constante. Les informations dispo- 
nibles sont : 


250 0 0 
X'X=— | O0 200 100 
O0 100 100 
500 
X'y = | 140 
100 
y'y = 200 


1. Calculez : 

(a) La taille de l'échantillon 

(D) 54 Tai D tn 

(c) Dia vies Di Ti 

(d) Da vuœin 
2. Calculez la droite de régression des y; en x;1 et æ;2 (avec constante). 
3. Calculez la matrice variance-covariance des variables explicatives. 


4. Calculez la matrice des corrélations des variables explicatives. 


Exercice 2.10 Retour au cas bivarié. 
Calculez les droites de régression de 


y en + 
zx en 


1. Si sur un graphique on à x en abscisse et y en ordonnée, quelle est la droite ayant la plus grande pente ? 
(Attention la réponse dépend de la valeur du coefficient de corrélation) 


2. Quelle est le point d’intersection des deux droites (faites les calculs) ? 
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Chapitre 3 


Rappel sur le calcul des probabilités, 
les variables aléatoires, et l’inférence 
statistique 


3.1 Probabilités 


3.1.1 Événement 


Une expérience est dite aléatoire si on ne peut pas prédire a priori son résultat. On note w un résultat 
possible de cette expérience aléatoire. L'ensemble de tous les résultats possibles est noté Q. Par exemple, si 
on jette deux pièces de monnaie, on peut obtenir les résultats 


TAB P EPL FLEFIE 


avec F pour “face” et P pour “pile”. Un événement est une assertion logique sur une expérience aléatoire. 
Formellement, un événement est un sous-ensemble de (2. 


Exemple 3.1 L'expérience peut consister à jeter un dé, alors 
Q = {1,2,3,4,5,6}, 
et un événement, noté À, est “obtenir un nombre pair”. On a alors 


A = {2,4,6}. 


Soient deux événements À et B, si AN B = (j, alors on dit qu’ils sont mutuellement exclusifs. 


Exemple 3.2 Par exemple, si on jette un dé, l’événement “obtenir un nombre pair” et l'événement “obtenir 
un nombre impair” ne peuvent pas être obtenus en même temps. Ils sont mutuellement exclusifs. D’autre 
part, si l’on jette un dé, les événements À : “obtenir un nombre pair” n’est pas mutuellement exclusif avec 
l'événement B : “obtenir un nombre inférieur ou égal à 3”. En effet, l'intersection de À et B est non-vide et 
consiste en l’événement “obtenir 2”. 
On appelle complémentaire d’un événement 
A-90\4. 


On va associer à ( l’ensemble À de toutes les parties (ou sous-ensembles) de 1. 


Exemple 3.3 Si on jette un pièce de monnaie alors Q = {P,F}, et 


A={D,{F},{P}, {EP}. 
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Définition 3.1 Les événements A1,..., A, forment un système complet d'événements, si ils constituent une 
partition de Q, c’est-à-dire si 
— tous les couples À;, A; sont mutuellement exclusifs quand i Æ 5, 


- Vin Ai = 0. 


3.1.2 Axiomatique des Probabilités 


Définition 3.2 Une probabilité P(.) est une application de À dans [0,1], telle que : 
— Pr(Q) = 1, 
— Pour tout ensemble dénombrable d'événements A1, …, À, tels que A; N A; = 0, pour tout i £ j, 


Pr [U s) = S_Pr(A 


À partir des axiomes, on peut déduire les propriétés suivantes : 
- UE 0, 
Pr(A) = 1 Pr(4), 
— Pr(A) < Pr(B re 
— Pr(AU B) = Pr(A) + Pr(B) — Pr(ANnB), 
= PE (Er À;) < DE Pr(A:), 


— Si A:,..., 4, forment un système complet d'événements, alors 


S_Pr(Bn À;) = Pr(B). 
i=1 
3.1.3 Probabilités conditionnelles et indépendance 
Définition 3.3 Soient deux événements À et B, si Pr(B) > 0, alors 


Pr(ANnB) 


Pr(AIB) = 


Définition 3.4 Deux événements À et B sont dits indépendants si 
Pr(A|B) = Pr(AÀ). 
On peut montrer facilement que si À et B sont indépendants, alors 


Pr(ANn B) = Pr(A)Pr(B). 


3.1.4 Théorème des probabilités totales et théorème de Bayes 


Théorème 3.1 {des probabilités totales) Soit A1,...,A, un système complet d'événements, alors 


= D pra :)Pr(BlA;). 


En effet, 
D Pr )Pr(BlA;) = ŸPr(BnAÀ;). 
i=1 
Comme les événements 4; N B sont ns exclusifs, 


nm 


> Pr(BN 4;) = Pr J(BN A;) = Pr(B). 


i=1 i=1 
Théorème 3.2 {de Bayès) Soit A1,...,A, un système complet d'événements, alors 


Dj Pr(A;)Pr(BlA;) 


J=1 


Pr(4;|B) = 
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En effet, par le théorème des probabilités totales, 
D Pr(A)Pr(BlA) —  Pr(B) 


= Pr(4;|B). 


3.2 Variables aléatoires 


3.2.1 Définition 


La notion de variable aléatoire formalise l’association d’une valeur au résultat d’une expérience aléatoire. 


Définition 3.5 Une variable aléatoire X est une application de l’ensemble fondamental Q dans R. 


Exemple 3.4 On considère une expérience aléatoire consistant à lancer deux pièces de monnaie. L'ensemble 
des résultats possibles est 
Q = APP RP CPR CPS PO 


Chacun des éléments de ( a une probabilité 1/4. Une variable aléatoire va associer une valeur à chacun des 
éléments de (. Considérons la variable aléatoire représentant le nombre de “Faces” obtenus : 


0 avec une probabilité 1/4 
X—=4 1 avec une probabilité 1/2 
2 avec une probabilité 1/4. 


3.2.2 Variables aléatoires discrètes 
Définition, espérance et variance 


Une variable aléatoire discrète prend uniquement des valeurs entières (de Z). 
Une distribution de probabilité px (x) est une fonction qui associe à chaque valeur entière une probabilité. 


px(x) = Pr(X = x),x eZ. 
La fonction de répartition est définie par 
Fx(x) = Pr(X <z)= S px(2). 
2<x 
L’espérance mathématique d’une variable aléatoire discrète est donné par 


= E(X) = D xpx (x), 


xeZ 


et sa variance 
c?=var(X)=E({X -E(X)}) = px (a)(x - 1°. 
xEZ 
Variable indicatrice ou bernoullienne 
La variable indicatrice X de paramètre p € [0,1] a la distribution de probabilité suivante : 


x = 1 avec une probabilité p 
7 | 0 avec une probabilité 1 — p. 


L’espérance vaut 
u=E(X)=0x(1-p)+1xp=p, 


et la variance vaut 
o° = var(X) = E(X — p}° = (1 —p)(0 — p}° + p(1 — p)° = p(1 — p). 


Exemple 3.5 On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si 


X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de paramètre p = 18/(18+12) = 0.6. 
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Variable binomiale 


Une variable X suit une loi binomiale de paramètre 0 < p < 1 et d’exposant n, si 
Pr(X = x) = (hote —p}" *,x=0,1,...,n—1,n, 
x 


où 


La somme de ces probabilités vaut 1, en effet 
nm nm n 
D_Pr(X=x)= D ( )»°(1 =p} = {p+(l-p)}" =1 
x 
æ=0 æ=0 
L’espérance et la variance sont données par 
E(X) = np, var(X) = np(1 — p). 
Exemple 3.6 On tire au hasard avec remise et de manière indépendante 5 boules dans une urne contenant 


18 boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi 
binomiale de paramètre p = 18/(18 + 12) — 0.6, et d’exposant n = 5. Donc, 


ô 
PEUX = 7%) = (5) 0.6%0.4%,x = 0,1,...,4,5, 


ce qui donne 


Pr(X =0) -= 0 — gr 0.5" x 0,479 = 1 x0:47-= 001024 

Bi == Ton x 0.457125 x 0.6! x 0.4 = 0.0768 
PriX =2), — Te )TLA x 0.457? = 10 x 0.6? x 0.4Ÿ = 0.2304 
FRS) = _. E)TLA x 0.453 = 10 x 0.6 x 0.4? = 0.3456 
Pr(X =4) = 16 LA x 0.457425 x 0.64 x 0.41 = 0.2592 
Pr(X =5) = st sy 0.6° x 0.455 = 1 x 0.6° = 0.07776 


Variable de Poisson 


La variable X suit une loi de Poisson, de paramètre À € R* si 


—À)\x 
FO 0 


x! 


L’espérance et la variance d’une loi de Poisson sont égales au paramètre À 


E(X) = À, var(X) = À. 
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3.2.3 Variable aléatoire continue 
Définition, espérance et variance 


Une variable aléatoire continue prend des valeurs dans R ou dans un intervalle de R. 
La probabilité qu’une variable aléatoire continue soit inférieure à une valeur particulière est donnée par 
sa fonction de répartition. 
Pr(X < x) = F(x). 


La fonction de répartition d’une variable aléatoire continue est toujours : 
— dérivable, 

positive : F(x) > 0, pour tout x, 

— croissante, 

— lims_s F(x) = 1, 


| 


Pr(a < X <b) = F(b) — F(a). 


La fonction de densité d’une variable aléatoire continue est la dérivée de la fonction de répartition en un 
point 
dE(x) 
T 


Une fonction de densité est toujours : 

— positive : f(x) > 0, pour tout x, 

— d’aire égale à un : [2 f(x)dx = 1. 
On a évidemment la relation : 


F(b) = [ f(x)dx. 
La probabilité que la variable aléatoire soit inférieure — valeur quelconque vaut : 
Pr(X < a) = | Ne 
La probabilité que la variable aléatoire prenne une valeur comprise entre a et b vaut 
Pr(a < X < b) = JL f(æ)dx = F(b) — F(a). 


Si la variable aléatoire est continue, la probabilité qu’elle prenne exactement une valeur quelconque est nulle : 
Pr(X = a) = 0. 


L’espérance d’une variable aléatoire continue est définie par : 


et la variance 


Variable uniforme 


Une variable est dite uniforme dans un intervalle [a,b], (avec a < b) si sa répartition est : 


0 sitT<a 
F(x)=4 (x—-a)/(b—-a) sia<x<b 
1 si x > b. 
Sa densité est alors 
0 Si T<a 
f(æ)=4 1/(b—-a) sia<x<b 
0 si x > b. 
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On peut montrer que 


b+a 
u = E(X) = . 
et @ ? 
5 — à 
L X) = ——. 
o = var(X) D 


Les logiciels génèrent en général des variables aléatoires uniformes dans [0,1]. 


Variable normale 


Une variable aléatoire X est dite normale si sa densité vaut 


fuor() = — = exp + (3.1) 


ov2T 2 o 


De manière synthétique, pour noter que X a une distribution normale de moyenne y et de variance o? on 
écrit : 


X = N(, 0°). 
On peut montrer que 
E(X) = y, 
et 
var(X) = a? 


La fonction de répartition vaut 


* 1 1/u-u\° 
Fete) = | = = XP ;( : ) du 


3.2.4 Distribution bivariée 


Deux variables aléatoires peuvent avoir une distribution jointe. 


Cas continu 


Soit deux variables aléatoires X et Y continues, leur distribution de densité f(x,y) est une fonction 


continue, positive, et telle que 
CO CO 
[1 fndrdy 1. 
— CO 0 


La fonction de répartition jointe est définie par 


Fu =PX rev <= | Î f(u,v)dvdu. 


On appelle densités marginales les fonctions 


fo = f Re à fade 


Avec les distributions marginales, on peut définir les moyennes marginales, et les variances marginales : 


Lx - | xfx(x)dx, et HyY a} yfyr(y)dy, 


= [ (e- x) fade et 0 = [ (un) fr odu 
On appelle densités conditionnelles, les fonctions 
(x, y) (x, y) 
f(aly) = et f(ylx) = ; 
GE re UE ete) 
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Avec les distributions conditionnelles, on peut définir les moyennes conditionnelles, et les variances condi- 
tionnelles : 


pxQ = fl ftnde, et avt = [ufr 


= [eux tend, ct be) = [7 {y ut} fmay 


Enfin, la covariance entre X et Y est définie par 


cu = (x) ff (ua) (mary 


3.2.5 Indépendance de deux variables aléatoires 
Deux variables aléatoires X et Y sont dites indépendantes, si 
Pr(X <xet Y < y) = Pr(X < x)Pr(Y < y), pour tout x,yE€ R. 
— Si X et Ÿ sont discrètes, cela implique que 
Pr(X =xet Y = y) = Pr(X = x)Pr(Y = y), pour tout x,y € Z. 


— Si X et YŸ sont continues, en notant fx(.) et f;(.) les fonctions de densité marginales respectives de 
X et YŸ, et en notant fxy(x,y) la densité jointe des deux variables, alors X et Ÿ sont indépendants si 


fxy (x, y) — fx(x)fr (y), x.y € R. 


3.2.6 Propriétés des espérances et des variances 
De manière générale, pour des variables aléatoires X et Y, et avec a et b constants : 
E(a + bX) = a +bE(X) 
E(aY +bX) = aE(Y)+bE(X) 
var(a + bX) = bvar(X). 
var(X + Y) = var(X) + var(Y) + 2cov(X, Y). 
De plus, si X et Y sont indépendantes : 
E(XY) = E(X)E(Y) 
cov(X,Y) = 0, 
var(X + Ÿ) = var(X) + var(Y). 


Enfin, il est possible de calculer l’espérance et la variance d’une somme de variables aléatoires indépendantes, 
et identiquement distribuées. 


Théorème 3.3 Soit X1,...,X, une suite de variables aléatoires, indépendantes et identiquement distribuées 
et dont la moyenne u et la variance a? existent et sont finies, alors si 


on «à 


E(X) = u, et var(X) = — 
Démonstration 
: 1 n 1 n n 
E(X)=E (xx) ==) E(X)=- D un 
i=1 i=1 i=1 
et 
var (X) = var IS RSS orne 
LL = ‘ L i=1 | Le i=1 L 
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3.2.7 Autres variables aléatoires 
Variable khi-carrée 


Soit une suite de variables aléatoires indépendantes, normales, centrées réduites, X1,...,X,, (c'est-à-dire 
de moyenne nulle et de variance égale à 1), alors la variable aléatoire 


p 
Éd, 
i=1 


est appelée variable aléatoire khi-carré à p degrés de liberté. 
Il est possible de montrer que 


E(x) = p, 
et que 
var(x?) = 2p. 
Variable de Student 


Soit une variable aléatoire X normale centrée réduite, et une variable aléatoire khi-carré à p degrés 
de liberté, indépendante de X, alors la variable aléatoire 


X 


b= = 
X5/P 


est appelée variable aléatoire de Student à p degrés de liberté. 


Variable de Fisher 


Soient deux variables aléatoires khi-carrés indépendantes Ve x respectivement à p et q degrés de liberté, 
alors la variable aléatoire : 
A ENSND 
Fi, Ne /d 


est appelée variable aléatoire de Fisher à p et q degrés de liberté. 


Remarque 3.1 Il est facile de montrer que le carré d’une variable de Student à q degrés de liberté est une 
variable de Fisher à 1 et q degrés de liberté. 


3.2.8 Variable normale multivariée 


Le vecteur de variables aléatoires X = (X1,...,X,)’ a une distribution normale multivariée de moyenne 
LH = (1,...,u4») et de matrice variance-covariance Z (on suppose par simplicité que X est de plein rang), 
si sa fonction de densité est donnée par 


1 1 re 
enprene |-3@- HET (-H)|, (3.2) 


fx) = 
pour tout x € RP. 


Remarque 3.2 Si p = 1, on retrouve l’expression (3.1). 
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Un cas particulier est important : supposons que la matrice variance-covariance peut s’écrire X — 


dag(otisé o5), ce qui signifie que toutes les composantes du vecteur X sont non-corrélées. Dans ce cas, 
[x cp) (xp) 
X — ne nr ae EX rnb ©: tan X — 
X (2r)?/212|1/2 P n H H 
1 


1 
rca Re) 


— L exp S2 DE 
CHENE 1 20 


5) P| 2 2 
u GPA, 5j) Ie - Æ + 
= At) 


(ai — | 


fx; (5) = (2ra°)1/2 rh | 20? 


est la densité de la variable X;. On constate que s’il y a absence de corrélation entre les variables normales, 
alors la densité du vecteur normal peut s’écrire comme un produit de densités. Dans le cas multinormal (et 
seulement dans ce cas), l'absence de corrélation implique donc l'indépendance des variables aléatoires. 

De manière générale, si X est un vecteur de variables aléatoires de moyenne pt et de matrice variance- 
covariance X, et si À est une matrice q x p de constantes, alors 


E (AX) = AE(X) = Au, 


et 
var (AX) — Avar (X) A’ = AXA'. 
Dans le cas normal, on à en plus la propriété suivante : 


Propriété 3.1 Toute combinaison linéaire d’un vecteur de variables aléatoires normales est normal (Ce- 
pendant sa matrice variance-covariance n’est pas nécessairement de plein rang). 


Donc, si X est un vecteur multinormal de moyenne Lt et de matrice variance-covariance X et si A est 
une matrice q x p de constantes, alors on écrit 


X=N(u,YX), 


et on a 
AX = N(Ay, AXA') , 


Comme une projection est une combinaison linéaire, on a aussi que : 


Propriété 3.2 Toute projection d’un vecteur des variables aléatoires normales est normale. 


3.3 Inférence statistique 


3.3.1 Modélisation 


La modélisation est une approche qui consiste à approcher la réalité par un modèle plus simple. Le 
modèle ne pourra jamais représenter complètement la réalité dans toute sa complexité. Le modèle est une 
simplification. La maxime des modélisateurs dit que “tous les modèles sont faux, mais certains sont utiles”. 
Comme le modèle ne peut tout décrire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. 
Le calcul des probabilités est alors introduit pour prendre en compte la partie inexpliquée par le modèle. 
Dans la demarche de la modélisation, la randomization est donc introduite à titre d’hypothèse. 
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3.3.2 Intervalle de confiance 


Pour ne pas donner sèchement la valeur d’un estimateur ÿ d’un paramètre 0, on préfère produire un 
intervalle [L—, L*] dans lequel pourrait se trouver le paramètre inconnu avec une certaine probabilité que 
l’on note 1 — à (a est une probabilité petite). On relativise ainsi l'information donnée par l’estimateur ô. 
Pour pouvoir construire un intervalle de confiance, il faut connaître la distribution de probabilité de 0) (ou 
au moins une approximation de cette distribution de probabilité). 


3.3.3 Tests d’hypothèses 
Tests d’hypothèses simples 


Le test d’hypothèses consiste à énoncer deux hypothèses sur un paramètre 0, dont une seule est vraie. 
Par exemple, on peut tester 

— l'hypothèse nulle H, que 0 = 65, 

— l'hypothèse alternative H; que 0 = 61. 

L'objectif est de prendre une décision sur H9 qui consistera à rejeter Ho (RHo) ou à ne pas rejeter Ho 
(RHo). La décision est prise sur base des données observées, et peut donc conduire à deux types d’erreurs : 

— Rejeter H5 alors que H, est vraie, cette erreur est appelée erreur de première espèce. 

— Ne pas rejeter H5 alors que A, est fausse, cette erreur est appelée erreur de deuxième espèce. 


TAB. 3.1 - Erreur de première et seconde espèce 
H, est vraie H, est fausse | 
RH, | Erreur de 1ère espèce Décision correcte 
RHo | Décision correcte Erreur de 2ème espèce 


La probabilité de commettre une erreur de première espèce est notée «&, et la probabilité de commettre 
une erreur de deuxième espèce est notée 5. Dans la théorie des tests d’hypothèses, on fixe a petit. 

La décision prise sur base des données observées ne peut pas être exacte, on calcule donc les probabilités 
de commettre les erreurs. 


TAB. 3.2 — Probabilité de commettre les erreurs 

H, est vraie H, est fausse 

RH | Pr(RHolHovraie) = à Pr(RHolHofausse) = 1 — 6 
RHo | Pr(RHolHovraie) =1—a  Pr(RHo|Hofausse) = B 


La quantité 
Pr(RHol Ho fausse) = Pr(RHo|H1 vraie) = 1 — 5, 


est appelée la puissance du test. Pour construire un test d’hypothèses, on fixe a petit (par ex : 0,05), et on 
cherche la règle de décision la plus puissante, c’est-à-dire, celle qui maximise 1 — 6. 
Tests d’hypothèses composites 


En pratique, on ne teste pas des hypothèses simples, mais des hypothèses composites. En effet, les 
questions que l’on se pose sur le paramètre sont du type “Le paramètre @ est-il strictement plus grand 
qu’une certaine valeur 09 ?” Ce type d’hypothèse composite amène à la construction de test du type : 


1) Ho :0-=6 2 Ho :0> 6 3 Ho :0<6 
H1 :0#0 H, :0 << Hi :0> 60 


Remarque 3.3 L'égalité doit toujours être dans l'hypothèse nulle, donc si la question est : “0 est-il stric- 
tement plus grand que 06?” on posera l’hypothèse alternative H1 : 0 > 60 et donc H5 : 0 < 6. 
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Il existe des techniques statistiques qui permettent de construire des tests puissants. Le test aboutit à 
la construction d’une statistique de test notée T et d’un intervalle d’acceptation que l’on note ZA et qui 
est construit pour un @ particulier. Souvent la statistique de test est l’estimateur 0 de 0. La décision qui se 
prend en général en fonction d’un estimateur de Test du type : 

— On rejette Ho si T & TA 

— On ne rejette pas Ho si T € TA 


Exercices 


Exercice 3.1 Soient X, un vecteur de RP, de variables aléatoires de moyenne ge et de matrice variance- 
covariance ZX et A est une matrice q xp de constantes. Montrez que E(AX) = Au et que var (AX) — AXA'. 


Exercice 3.2 Dans une ville, on évalue à 20% les individus qui approuvent la politique économique du 
président, les 80% restant s’y opposent. 


1. 


Quelle est la probabilité que parmi 8 personnes choisies au hasard, 3 exactement approuvent la politique 
économique ? 

Quelle est la probabilité que parmi 8 personnes choisies au hasard, un nombre inférieur ou égal à 3 
personnes approuvent la politique économique ? 

Un meeting organisé par les opposants a réuni 10% des opposants et 1% des individus favorables. 
Déterminez les probabilités qu’un participant au meeting, choisi au hasard, soit un opposant. 


4. Donnez les expressions de l’espérance et de la variance de la loi de probabilité utilisée. 


Calculez les valeurs de l’espérance et de la variance. 
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Chapitre 4 


Le modèle linéaire général 


4.1 Le modèle 


4.1.1 Définition du modèle linéaire général 


En économétrie, on ne considère pas simplement que les variables sont observées sur des unités statis- 
tiques. On postule l’existence d’un modèle qui régit les relations entre les variables. La relation la plus simple 
est une relation linéaire, entre les variables explicatives et la variable dépendante. 

Le modèle linéaire général s'écrit 


p 
Yi = ÿ Tij0j + Ei, 
j=i 


où 
— 2; représente la valeur prise par la jième variable sur l’individu i, les x;; sont supposés non-aléatoires, 
— f; est la jième composante du coefficient de régression, 
— les €; sont des variables aléatoires telles que 
— E(é;) = 0 pour tout 4, 
— E(é;ez) = 0 pour tout i £ k, 
— E(e?) = 0? pour tout i. 


4.1.2 Hypothèses du modèle linéaire général 


Avec le modèle linéaire, on énonce un ensemble d’hypothèses qu’il est utile d’expliciter : 

— La relation entre les variables explicatives et la variable dépendante y est linéaire. 

— I n’y à ni d'erreurs de mesure, ni d’erreurs d’échantillonnage sur les variables explicatives, autrement 
dit les x;; ne sont pas aléatoires. 

— Les termes d'erreur €; sont d’espérances nulles. 

— Les termes d’erreur €; sont non-corrélés. 

— Tous les €; ont la même variance (homoscédasticité). 


4.1.3 Données observées, et formulation matricielle 


En pratique, on observe n réalisations du modèle. On peut donc écrire le modèle sous forme matricielle. 
y = XB+Ee. 


où 
— X est une matrice de constantes (non-aléatoire) de plein rang de dimension n x p des x;;. 
— (Best un vecteur (inconnu) de R?. 
— € est un vecteur (inconnu) de dimension n de variables aléatoires €;. 
Seuls y et X sont observés. 
Les hypothèses du modèle linéaire général peuvent être reformulées : 
— La matrice X est n’est pas aléatoire, 
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— La matrice X est supposée de plein rang (Dans le cas contraire, on dit qu’il y a multicolinéarité, c’est- 
à-dire qu’au moins une des colonnes de la matrice peut s'exprimer comme une combinaison linéaire 
des autres colonnes), 


— E(€E) = 0, 
— var(e;) = a? (homoscédasticité). 
— cov(£;,€;) = 0 (toutes les corrélations sont nulles). 


Remarque 4.1 La somme des termes d’erreur »1;_, €;, n’est pas nécessairement nulle. 


4.1.4 Autre présentation du modèle linéaire général 


Une présentation plus synthétique du modèle linéaire général est la suivante : soit y un vecteur aléatoire 
de R” tel que 

— E(y) = XB où X est une matrice n x p et B € RP, 

— var(y) = Io? où I est une matrice identité n x n et o? est un scalaire. 
Cette formulation est équivalente à la précédente. 


4.2 Estimation du modèle 


4.2.1 Estimation par les moindres carrés (ordinaires) 


L'objectif est d'estimer [3 et o?. La méthode des moindres carrés consiste à minimiser en (3, l'expression 
e'e=(y-XB) (y - XO). 


La solution (voir section 2.2.2) fournit l’estimateur des moindres carrés (ordinaires) (3 de 6, qui se note 


= 


B= (XX) "'X'y. 
L’estimateur BB est une variable aléatoire, car il dépend de y qui est une variable aléatoire. 


Définition 4.1 Un estimateur est dit sans biais si son espérance mathématique est égale au paramètre à 
estimer, quelle que soit la valeur de ce paramètre. 


Théorème 4.1 L'’estimateur BB = (X'X)-!X'y est sans biais. 


Démonstration 
Comme 


= 


B=(XX) "X'y= (XX) 'X'(XB+eE) = (X'X) 'X'XG+(X'X) 'X'e= + (X'X) !X'Ee. 
On a 


E(8) = E{B+(X'X) !X'e} 
_ B+(XX) 'X'E(E) 
= B. 


= 


Théorème 4.2 var({3) = o?(X'X)-!. 


Démonstration 
Comme 


B=B+(KXx) Xe, 


A4 


on à 


var(B) = var{(X'X) 'X'e} 
= (XX) !X/var {e} X(X'X) ! 
= (XX) !X'I02X(X/X) 1 
= o2(X'X) !X'X(X/X) | 
—— 
= a (X'X) ! 


Théorème 4.3 {de Gauss-Markov) L'estimateur B = (X'X)-!X'y est le meilleur (au sens de la plus petite 
variance) estimateur linéaire en y sans biais de GB. 


Démonstration 
Soit ° = Cy, un estimateur linéaire. En posant B = C — (X'X)-!X’, on a 3° — (B+(X'X)_'X')y. 
Comme 

E(6")=E{(B+(XX) 'X')(XB+e)} = (B+(X'X) 'X/)XB = BXG + B, 


pour que F soit sans biais, il faut que 
BX6 +6 = 5, 
c’est-à-dire que 
BXG = 0, 
pour tout 8 € R?. Donc, 
BX — 0. (4.1) 


+ . * 
Calculons maintenant la variance de GB 


var(8') = (B+(X'X)-'X'}ar(y)(B + (XX) IX) 


B+(X'X) !X/)Io(B+(X/X) !X') 


= {BB/+BX(X'X) !+(X'X) !X/B'H(X'X) 1 À 02. 
ni, — en 


— 
0 0 
Par (4.1), on a finalement 
var(6”) = {BB'+(X'X) "} 0. (4.2) 


La matrice BB’ est semi-définie positive. Tous les éléments de sa diagonale sont positifs. Donc, le meilleur 
estimateur est obtenu quand B = 0. 


Comme X est connu, il suffira d’estimer a? pour estimer la variance de (9. Le vecteur des termes d’erreur 
€ peut être estimé par : 
e=ËE-y-X{B-y-xX(XX) 'Xy=Pz%y 
Notre objectif est de calculer E(e’e). Pour obtenir le résultat, on utilisera le théorème général suivant. 


Lemme 4.1 Soit un vecteur u composé de n variables aléatoires d’espérances nulles, et tel que var(u) = o?1I, 
et À une matrice symétrique non-aléatoire, alors 


E(u’Au) = o?trace(A) 


Démonstration 


E(u’Au) = Det (+ DT a B (us) 


i=1 5=1 
&2 En ed 
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Or Elu;u;) = 0, quand j # à. Donc, 


(u'Au) = > aÿE => ao? = o>trace(A). 


Grâce au lemme 4.1, on peut calculer l’espérance de e’e. 
Théorème 4.4 Soit e — y — XÜ, alors 


E(e’e) = (n — p)o? 


€ 


Démonstration 
Nous avons vu en section 2.1 que e peut également s’écrire 


= (I-Px)y, (43) 


où P x est un projecteur (c’est-à-dire une matrice idempotente) sur le sous-espace engendré par les colonnes 
de X : 
Px = X(X'X) !'X!. 


Donc, 
e=(I1-Px)y= (-Px)(XB +€) =XBG-Px;XB+eE-PxeE. 


Or PxX = X, ce qui donne 
e=e-Pxe=(I-Px)e. 


On obtient 
e'e — E'(I = Px)(I —< Px}e 


et comme (I — Px) est symétrique et idempotente, on a 
ee =E'(l-Px)e = ele —-E'PxeE. 
Par le lemme 4.1, on obtient 
E(e’/e) = o?trace(T) — a?trace(P x). 
Or trace(I) = n et trace(P x) = p, car la trace d’une matrice idempotente est égale à son rang. Donc 


2 
e* 


E(e’e) = no? — po? = (n— p)o 


Le théorème 4.4 nous permet de construire un estimateur sans biais pour a? qui est : 
! 
5 e’e 


Oé — ; 
CCR 2 


E 


La quantité n — p est appelée nombre de degrés de liberté, et est le rang de ([—P x). 


TAB. 4.1 - Tableau récapitulatif 


Paramètre Estimateur Variance Variance estimée 
B B=(&X)'Xy. (KX) 0 (NX) 6 
— XD) (y-X 
o 2-6 B)' (y — XB) : 
np 
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4.2.2 Estimateurs du maximum de vraisemblance 


Une autre approche consiste à faire une hypothèse sur la distribution de probabilité de €. On suppose 
que les €; sont des variables aléatoires indépendantes ayant des distributions normales de moyennes nulles 
et de variance o?. 

On peut donc écrire que le vecteur € a une distribution multinormale : 


€ N(0,I0°), 
et, comme y = XB+E€, 
yoN (XB, 10°) . 


et donc 
y-XB- N (0, 10°) à 


De (3.2), on à 


DO) = orme [pu - X8) Tu -x8) 


1 1 
— ex 
(2r02)72 °° |" 202 


(u — XB)'(u — xB) , pour tout u € R”. 


On se trouve dans un problème paramétrique classique. Comme y et X sont observés, on va estimer les 
paramètres (3 et a. 

La méthode du maximum de vraisemblance consiste à estimer le paramètre par l’estimateur qui maximise 
la densité pour les données observées. La fonction de vraisemblance s'écrit : 


1, _Ew=X8)G-X8) 


LD )=Ab= (2r02)" 7? A 202 


Il est souvent plus facile (et c’est le cas ici) de chercher à maximiser le logarithme de la fonction de vrai- 
semblance (le résultat sera le même) plutôt que la fonction elle-même. Le logarithme de la vraisemblance 


vaut : 
G=X0) (y = X6) 


2 
20 


U(B, 02) = log L(B, 02) = — > log(2r) — = log(o?) 


On obtient le maximum en annulant les dérivées partielles par rapport aux paramètres. On obtient 


et 


La solution du maximum de vraisemblance pour 3 est donc la même que la solution des moindres carrés, et 
vaut : 


= 


B= (XX) 'X'y. 
L’estimateur du maximum de vraisemblance de a? est donné par 


ee 


x 1 = = 
CEmv — tu — XB)'(y en X/) DA 
L’estimateur 6274 est biaisé. 


4.2.3 Propriétés des estimateurs du maximum de vraisemblance 


Rappelons quelques propriétés des estimateurs : L 

— Un estimateur 0 d’un paramètre 0 est sans biais, si E(0) = 0 pour toute valeur de 6. 

— Un estimateur est efficace ou de variance minimum si sa variance est plus petite ou égale que celles de 
tous les estimateurs du paramètre. 
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— Un estimateur 0 est convergent, s’il converge en probabilité vers le paramètre à estimer, c’est-à-dire 
lim Pr(l0 —0|>e) =0, 
n— OO 


où € est une quantité arbitrairement petite. 

— Une statistique est exhaustive si elle épuise toute l’information relative au paramètre. 

La méthode du maximum de vraisemblance fournit des estimateurs ayant les propriétés suivantes : 

— S'il existe une statistique exhaustive, alors l’estimateur du maximum de vraisemblance en dépend. 

— Si Ÿ est un estimateur du maximum de vraisemblance de 4 alors f(@ ô) est l’estimateur du maximum de 
vraisemblance de f(0). 

— Si l’estimateur du maximum de vraisemblance admet une solution unique, alors cet estimateur est 
convergent et asymptotiquement efficace du paramètre. De plus, cet estimateur converge en loi vers 
une normale. 

Cependant, l’estimateur du maximum de vraisemblance n’est pas nécessairement sans biais. L’estimateur du 
maximum de vraisemblance de a? est en effet biaisé. 


4.2.4 Distribution de probabilité des estimateurs 
Dans le modèle linéaire général avec des termes d’erreur normaux, on a 
B=(x'x) 'x'y= (xx) X'(XB+e)=B+ (XX) ‘X'e 


Donc, (3 est une combinaison linéaire de variables aléatoires normales i.i.d. Or une combinaison linéaire de 
variables normales indépendantes est aussi une variable normale. Donc 


B + N(B,(&X) ‘o?). (4.4) 


Lemme 4.2 Soient u un vecteur aléatoire de distribution normale de R”, de moyennes nulles et de variance 
I, et l'une matrice orthogonale de dimension n X n, alors 


Tu = W(0,1), et T'u = W(0,1) 


Démonstration 
On a Fu < W(0,TIT’), et L’u < W(0,T'IT) Or, L'=T-!, donc T'IF” =I. 
L’inférence sur paramètres est basée sur le résultat général suivant. 


Théorème 4.5 Soit un vecteur aléatoire u de distribution normale, de moyennes nulles et de variance I. 
Si P est symétrique, idempotente et de rang p, alors u'Pu est une variable % à p degrés de liberté. 


Démonstration 

La matrice P admet une décomposition en valeurs propres et vecteurs propres. En vertu du théorème 1.2, 
si À représente la matrice diagonale ayant les valeurs propres À; de P sur sa diagonale, et T est une matrice 
orthogonale contenant les n vecteurs propres de P, alors on peut écrire : 


P=TAT". 


La forme quadratique peut s’écrire 

u’Pu = uTAT'u = v'Av, 
où v = l'u. En vertu du lemme 4.2, v + W(0,1). En vertu du théorème 1.4, comme P est idempotente et 
de rang p, P a p valeurs propres égales à 1 et n — p valeurs propres égales à 0. La forme quadratique 


nm nm 
! 7 2N y EE 2 
v Av = ) Vi Ài = ) Vi 
i=1 i=1|A=1 


peut donc s’écrire comme une somme de p carrés de variables aléatoires normales centrées réduites indépendantes, 
ce qui définit une x. 


Corrolaire 4.1 Dans le modèle linéaire général avec des termes d’erreur normaux, 
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En effet, 


-B = (XX) Xy-B 
(XX) X'(XB+eE)-B 
= B+(XX) XEe-B 

= (XX) "X'e, 


TC) 


Il 


donc 
XX >, 


o2 


! 
(B-B)=EX (XX) == 2e XX) Xe = © x(X'X) x © 
o2 


Te Te 


(8-8) 


E 


Comme la matrice X(X/X) !X/ est symétrique idempotente et de rang p et que €//o. est un vecteur 
multinormal non-corrélé, le corollaire s’obtient directement par le théorème 4.5. 


Corrolaire 4.2 Dans le modèle linéaire général avec des termes d’erreur normaux, 


En effet, 
e=y-XB=y-X(XX) Xy=PLle 
où P£=I-X(X/X) !X/. Or P£ est une matrice idempotente de rang n — p. On obtient 


er prpi = Pré, 


(os Te Te E Te 


L'indépendance de B et 6? se montre grâce au résultat suivant : 


Théorème 4.6 Soient les matrices B (px n) et À (n xn) et un vecteur aléatoire u = N'(J4, 021), alors les 
p formes linéaires Bu sont indépendantes de la forme quadratique uw’ Au si BA = 0. 


Corrolaire 4.3 Dans le modèle linéaire avec des termes d’erreur normaux, 


1. (B est indépendant de e'e 


2. (B est indépendant de 6? = 2 


En effet, e/e = €'Pte où P£ =I-X(X/X) X'et B- B = 7 X/E or (XX) X/PL£ = 0, ce 
qui implique directement le corollaire. 


Théorème 4.7 Soient deux matrices symétriques C (n x n) et À (n x n) et un vecteur aléatoire u = 
N(u, o2T), alors les deux formes quadratiques u’Cu et u’Au sont indépendantes si CA — 0. 


4.2.5 Synthèse des résultats 


En résumé, si y = X{3 + € est un modèle linéaire général avec des termes d’erreur normaux : 


et 62 sont convergents, exhaustifs, efficaces et sans biais, 
e 


€ 
t 62 sont Re 


N(B.(X'X) " 0?) 


Jo? e’e : 
E — 2 


| 


[ 
FT © © ©. 


Il 


| 
QCILS 
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Exercices 


Exercice 4.1 Soit une suite de variables aléatoires (v.a.) indépendantes et identiquement distribuées (1.i.d.) 
de loi (y, o?) 


1. On considère que a? est connue. 
Estimez u par la méthode du maximum de vraisemblance. 


2. On considère que 4 est connue. 
Estimez a? par la méthode du maximum de vraisemblance. 


3. On considère que a? et y sont inconnues. 
Estimez y et a? par la méthode du maximum de vraisemblance. 


Exercice 4.2 On se place dans le cadre du modèle linéaire général (MLG) avec la normalité des erreurs. 


1. Écrivez la fonction de vraisemblance quand 


1 T1 
_ TE 
X=|1 ri 8-(;) 
1 " 


2. Ecrivez la de manière scalaire (et non sous la forme matricielle). 


3. Annulez les dérivées partielles par rapport à Hi, G2 et o°. 


Exercice 4.3 Soit une suite de v.a. X1,..., X, 1.i.d. dont la densité d’un X; est donné par 
1 . 
3) 6 à 0 < x; < 6, 
Pei(i) { O0 sinon. (4:5) 


Dessinez la fonction de densité et la fonction de répartition de X;. 

Quelle est la densité jointe du vecteur X = (X:,...,X;,..., X)? 

Donnez la fonction de vraisemblance. 

Estimez 0 par maximum de vraisemblance. 

Donnez les fonctions de densité et de répartition de l’estimateur du maximum de vraisemblance. 
Calculez l’espérance de l’estimateur du maximum de vraisemblance. 


Si l’estimateur est biaisé, faites une correction de non biais. 
nl 


DEN D OR Es OR 


Soit deux estimateurs de l’espérance des X; : la moyenne des X; sur l’échantillon et l’estimateur du 
maximum de vraisemblance de 0 débiaisé et divisé par deux. Quel est le plus efficace ? 
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Chapitre 5 


Inférence dans le modèle linéaire 


5.1 Intervalle de confiance sur un coefficient de régression 
Dans le chapitre précédent nous avons vu que 
= ST 
Bj © N(B;,(L'X) 5508), 


où [(X/X)7!] 5 est la composante correspondant à la jème ligne et à la jème colonne de la matrice XT. 
On obtient donc que 


On a également que 


(n—p)6? _e'e 
2 10 n—p 
TE CE 


De plus B; est indépendant de 62. 
La quantité 


peut donc être vue comme un rapport d’une normale centrée réduite sur la racine carrée d’une khi-carrée 
divisée par son nombre de degrés de liberté, ce qui définit une variable de Student à n — p degrés de liberté. 
En simplifiant, on obtient que 
Oj — b; 
a 1 
8e 1CX) 15 


Où tn" est une variable aléatoire de Student à n — p degrés de liberté, ce qui implique que 


mt 


n—p); 


Pr —Li_a/2n-p < ñ; = B; 


8 VI X) 


OÙ t1_a/2n-p est le quantile d’ordre 1 — « d’une variable aléatoire de Student à n — p degrés de liberté. 
Après quelques calculs, on a 


<t a/2,n—p =1l-a, 


Pr (5 LL i-a/2n-ple (XX) 1; < b; < Bb; + bed iepee CSN) =1-a, 
ce qui définit l’intervalle de confiance de niveau &, donné par : 


ICQ a) = [5 Han 16. ['X) is B5 + t1-ayan 18e x | 
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5.2 Test d’un seul coefficient de régression 


5.2.1 Construction du test 


Le problème consiste à tester la valeur d’un coefficient de régression particulier 
P P 


Sous Ho, B; Ty N(B50, 92(B;)) où 
o(B,)= [(x'xX)  0?] 


Ji 
est simplement la composante correspondante à la jième ligne et la jième colonne de var(B) = (X'X)7" 02. 
On peut donc estimer simplement 0?(3;) par 

#8) = [e'x)"8] 


Rappelons que 6? et B; sont indépendants, et que 


02 T Xn-p 
Donc 
_ _— 1%)\71 22 
ane CDR XNTE]. G-n62 r 
d2(5;) (XX) 02] oè Fe 
323 
De plus, 


Sous Ho, la statistique 
0) _ (85 Bjo)/o(B5) | B5— Bjo 
(mp) VG2/0È G(5;) 


a donc, sous Ho, une distribution de Student à n — p degrés de liberté. On rejette Ho si 


fé > &1-0/2n-p. 


OÙ É1_a/2,n-p représente le quantile d’ordre a /2 d’une variable aléatoire de Student à n — p degrés de liberté. 


5.2.2 Modèle linéaire avec uniquement une constante 


Le test d’hypothèse sur la moyenne peut être vu comme un cas particulier d’un test sur le coefficient de 
régression. 
Soit y1,...,%i,...,Yn une suite de n variables aléatoires indépendantes, telles que y; + N{(u,a?), ce qui 
peut s’écrire sous la forme d’un modèle linéaire 
Yi =up+e,i=1,...,n, 
avec £;  N(0,a?), et les &; indépendants. Sous forme matricielle, on écrit 


Yy=lu+E, 


où 1 est un vecteur colonne de R” composé de uns, et € + W(0,I0?). On obtient alors 
1 nm 
= _1 = 
2—= 
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Les valeurs ajustées valent y* = ÿ et les résidus e; = y; — ÿ. L’estimateur de a? vaut 


= ee 1 É s 
6° = = S_(w-5), 


var() = (11) =, 
nm 
1 6? 
var(f) = (11) 6? = —. 
nm 


Par le corollaire 4.3, fi et 6? sont indépendants. De plus on a, par l'expression (4.4) : 


= 1411 2) o° 
BeN(LATD OS )=N(r)]. 


Donc, 
H—k 


Pen 


= N(0,1). 


En outre, on peut écrire 
n — 1)6? E E 
K= ( ) sp; 


o? 


où P, la matrice idempotente de rang n — 1 qui centre les valeurs : 


1—1/n  —1/n —1/n  ....  —1/n 

; —l/n  1—1l/n —1/n ....  —1/n 
pr | —i/n in 1-1/n .…. in | (5.1) 

Fr . . o ae 


Les variables aléatoires d et X sont indépendantes. De plus, par le théorème 4.5, K < y2_,. Donc 


Bu 2 
d SVT _ Vn(i — y) 


ue Æ D ln-1. 


VERT Jen D) © 


Ce résultat fondamental permet de mener une inférence sur la moyenne. 


5.3 Tests de Wald sur les coefficients de régression 


5.3.1 Test général d’une contrainte linéaire 


L'objectif est de tester une hypothèse linéaire assez générale sur les coefficients de régression du type : 
Ho :RB=r, (5.2) 
contre l’hypothèse alternative 
Hi :RB#r, (5.3) 
où R est une matrice q X p, q < p, et r un vecteur colonne de dimension q. En outre on suppose que R est 


de rang q. 


Exemple 5.1 
— Le test Ho : B; = c s'obtient en prenant R = (0---0 1  0---0)etr=c. 
jième 
— Le test Ho : B; = 0 pour tout j s'obtient en prenant R = I, (matrice identité de dimension p) et r 
est un vecteur de 0 de dimension p. 
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Sous l’hypothèse H5, 


RB-r = R(XX) 'Xy-r 
R(XX) X'(XB+E)-r 
= RB+R(XX) X'E-r 
= R(XX) ‘X'e. 
De plus, . - Le 
var(RG — r) = var(RG) = Rvar(B)R' = 62R(X'X) ‘R!. 


Examinons maintenant la forme quadratique : 


où 
1 
W=X(X'X) !R {Rx R'} R(X'X) !X!. 
On vérifie facilement que W est une matrice idempotente, symétrique de rang q. Par le théorème 4.5, on 
obtient donc que 
k ! 2 
à WE Tv Xq° 


et donc 


(RB-r)var(R) (RB-1)-(RB-7'{ROX)R (RB-r) ex (55) 


Si la forme quadratique (5.4) est grande, on soupçonne Ho d’être faux. Cependant, on ne peut réaliser 
directement un test y? car l’expression (5.5) depend de a? qui est inconnu. On sait par ailleurs que 
! 2 
02° e Xn—p: 
De plus, comme 
e‘e=E'(I—-Px}e, 


et que ([—Px)W = 0, par le théorème (4.7), on a l'indépendance de e/e/o? et de €’ WE. 
On peut construire une statistique de test 


F, = A (5.6) 


Sous H,, le numérateur et le dénominateur de F, sont indépendants, et ont, à une constante près, une 
distribution yx?. La statistique de test F. a donc une distribution de Fisher à q et n — p degrés de liberté. 
Donc, en notant a l’erreur de première espèce, on rejette l'hypothèse 5.2, si 


Fe > FT 
Où Fa gn-p est le quantile d'ordre 1 — a d’une variable aléatoire de Fisher à q et n — p degrés de liberté. 


5.3.2 Test global des coefficients de régression 


Un cas particulier du problème précédent consiste à tester la nullité de tous les coefficients de régression 
(excepté la constante). On suppose que la première colonne de la matrice X est composée de uns, c’est-à-dire 
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que æ;1 — 1 pour tout à = 1,...,n. La matrice R est de dimension (p — 1) x p et vaut : 


0 1 0 0 0 0 O0 
0 0 1 0 0 0 O0 
0 0 0 1 0 0 O0 
R=I0 0001 0 O0 
0 0 0 0 0 1 0 
0 0 0 0 0 0 1 
Alors : 
RG = B=(B&...8@), 
et 


r=0€eR? !. 
Le test devient alors : 
Ho : 5j —0, pour tout j = 2,...,p, 
Hi : au moins un des 6; 40, 


ce qui peut aussi s’écrire 


ou encore 


Théorème 5.1 


SA EL 2 
{R (XX) ! R'} = XP X = n5, (5.7) 
où P. est l’opérateur qui centre les données déjà présenté dans l'expression (2.7) 
11’ 
Pc =I- PATES 
n 


Z est la matrice variance-covariance et X est la matrice de dimension nx(p—1) composée des p—1 dernières 
colonnes de X. 


Démonstration 
On peut écrire 


nm Dex T2 2. Li3 sue Se Tip 
DE it Dhitiotis . Tip 
X'X = ê : = [Davis Divin Dix .…. Ytisti 


D Tip + Ti2Tip D Ti3lip -.. à To 
où , 
u — Œ T2 DL Ti3 Me D, ts) : 
et 
5 Le D. Li2LU;3 ... Sr Ti2Tip 
7 ire Li vi Di Tistip 
Duitiotip Dhitistip Tip 


Par la méthode d’inversion par partie, on à 
par p ) 


IN 71 L+-LuQu —lu/Q 
ms 2 (HÈ 2 


où 
1 1 
Q = (z _ run!) , 
n 


(RXX) IR) I 2 QT 22 uw’ = n3, 
n 


De plus, 


où X est la matrice variance-covariance définie en (2.2). 
L'expression (5.5) est alors la somme des carrés de la régression (voir expression (2.10)) : 


(RB- r)var(RÈ)- (RE - r) = B X'P.KB = SC. 


En considérant l'expression (2.3), la statistique de test (5.6) devient : 


SCregr/(p — 1) 


7 SC /in D) . 


ce qui peut également s’écrire 
(SCiot SCres)/(p — 1) 
SCyres/(n p) ‘ 


Ce test est généralement résumé au moyen du tableau d'analyse de la variance (voir tableau 5.1). 


Fe = 


TAB. 5.1 - Tableau d'analyse de la variance 


Source sommes Degrés Carrés Fe 
de variation des carrés de liberté moyens 


SCre T 
Régression  SCregr DS CMregr = p— 1 Fe = CMsegr/CMres 
Résiduelle SC n—p ME SCres 
n—p 
SCto 
Totale SC+ot n—1 CM . 
= 


La règle de décision consiste à rejeter Ho si Fe > Fi p-1n-p Où Fi-ap-1n-p est le quantile d'ordre 
1 — a d’une variable aléatoire de Fischer à p — 1 et n — p degrés de liberté. 


5.3.3 Test de Fisher sur un coefficient de régression 


Il est également possible de réaliser un test de Fisher pour un coefficient de régression au moyen du test 


de Fisher : 
{ Ho : Bj = Bio 
Hi: B; Bio. 
Pour ce faire, on prend 
DE 1, 
SR Os A 0) 
So 
unité j 
— r = Gjo. 
On obtient ” 
RG — r = 6; — Bo, 
- R(X'X) !R' = (xx) e 
53 
L'expression (5.6) devient 
F.— (8; — Bo)” 


Sous Ho, Fe suit une distribution de Fisher à 1 et n — p degrés de liberté. On rejette donc Ho si 
Fe > PT tps 


OÙ Fi a,1,n-p est le quantile d'ordre 1 — a d’une variable aléatoire de Fisher à 1 et n — p degrés de liberté. Ce 
test n’est autre que le test de Student développé en section 5.2.1. En effet le carré d’une variable de Student 
à n — p degrés de liberté est une variable de Fisher à 1 et n — p degrés de liberté (voir section 3.2.7). 


5.4 Analyse de la variance à un facteur 


5.4.1 Le problème 


L'analyse de la variance à un facteur est un cas particulier du modèle linéaire général. On suppose que les 
observations sont réparties dans H groupes. Les H groupes correspondent souvent à un traitement spécifique 
ou à une caractéristique des unités d'observation. L'objectif est de tester d’hypothèse nulle que les moyennes 
de tous les groupes sont égales. Si on note y;n la valeur prise par l'observation à du groupe h, et ny Le nombre 
d'observations du groupe h, avec 

H 
ÿ nNh = nn. 
R=1 


Le modèle s'écrit : 
Yih = Hh + Ein; (5.9) 


pour tout h = 1,...,H, et i = 1,...,nn, où les ux sont H constantes et les €; sont des termes d’erreur 
indépendants, identiquement distribués ayant une distribution normale de moyenne nulle et de variance Ge 
Le modèle (5.9) est un cas particulier du modèle linéaire général. Nous allons examiner deux méthodes 
permettant de tester l'hypothèse d'égalité des moyennes des groupes, ce qui s'écrit 


HG, Rep ln (5.10) 
H;, au moins un des y, est différent des autres. ° 


5.4.2 Méthode 1 


La première méthode consiste à écrire le modèle (5.9) sous la forme d’un modèle linéaire général où : 
— y est le vecteur des n observations de y;n 

— B=(u1...Un...pr) est le paramètre du modèle, 

— € est le vecteur des termes d’erreur, 

— X est la matrice (n x H) des variables explicatives qui est définie par : 


_— 1 si l’observation 1 est dans le groupe À 
#7] 0 sinon 
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ce qui donne, quand les unités sont rangées selon leurs groupes, 


0 : 0 


(5.11) 


On peut dès lors écrire le modèle (5.9) sous la forme matricielle habituelle 
y = XB+Ee. 


La matrice X’X est une matrice diagonale qui vaut 


ni O0 0 0 
0 n 0 0 
ju 
Fo 0 0 Nh 0 |? 
0 0 0 NH 
et son inverse vaut 
RER ré 0 
ni 
EE 
(X'X) "= | 0 ns 0 
0 0 ee 
NH 


On a également le produit 
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Enfin, l’estimateur de 3 est donné par 


où ÿYn est la moyenne du groupe h et l’estimateur de up : 
1 nh 
Un = Ÿh = — D Yi 
pour h=1,--:,H. On a alors directement 
— les valeurs ajustées 
Vin _. Un 


— et les résidus 
Eih = Yih — Yh- 
Pour réaliser le test donné en (5.10), on va utiliser la méthode de Wald développée dans la section (5.3). Le 
test (5.10) est un cas particulier du test (5.2) en prenant la matrice de contraintes R de dimension (H—1)x H 
suivante : 


FL DH, ..,0R 
n n n n 
ni n2 NH-1 NH 
Dire Ti LE 
R — n n n n 
ni n2 1 NH-1 NH 
n n n n 
Ni  N2 NH-1 NH 
1 0 0 0 non n n 
0 1 0 0 M M 41 NH 
= — n n n n ; 
OR AR Ne KE ni  N2 NH-1 NH 
n n n n 


et r est un vecteur de zéros de dimension H — 1. On obtient après quelques calculs : 


1 H 
H1 — n 2 hi 


Hip 
1 E 

RG — pin = D nan = | un—uw |, 
h=1 : 

HH-1—H 


i = 
UH-1 — 5 D nb 


et, de la même manière, 


1 —Ÿ 
RG = Un — Ÿ , 
YH-1 —Ÿ 


et y est la moyenne des observations : 


Tester RGB = r équivaut, dans ce cas, à tester l'hypothèse nulle de (5.10). Pour calculer la statistique du test 
donné en (5.6), on doit calculer R(X'/X) !R/. Après quelques calculs, on obtient : 


1l 1 —-1 2 


nH-1 


qui est une matrice de dimension (A — 1) x (H — 1). On peut vérifier par une simple multiplication que 
l'inverse de cette matrice vaut 


Ha der  Ù de 0 
È PR ' 

{R(X'X) ‘R'} ! = | 0 -.. np 0 + _, 
. . . NH 
Où 48e ca CR 


ou n' = (ny n2---n#-_1). Enfin, après quelques calculs, on obtient 
! . H 
(RB-r) {R(CX) R'} (RG — r) = D na(ÿn — 9), 
h=1 


qui n’est autre que la somme de carrés de la régression. Cette somme de carrés est souvent appelée pour ce 
cas particulier : somme des carrés inter-groupes (SCrnrenr). 
Au dénominateur de l'expression (5.6), on a 


H nn 


ee) (ur), 


R=1 i=1 


c’est la somme des carrés des résidus qui est appelée pour ce cas particulier : somme des carrés intra-groupes 


(SC:NTRA). 
Si l’on considère la somme des carrés totale, 


H nn 


SCror = DD (vin — 9)”, 


R=1 i=1 


on a la décomposition classique des sommes de carrés 


SCror = SCINTRA + SCINTER: 
On peut enfin construire la statistique de test de l’expression (5.6). Comme q9=H-—1,ona 
| SCrnrer/(H — 1) 
SCrNrrA/(n — H) 


On construit le tableau 5.2 d’analyse de la variance. 


Fe (5.12) 


La règle de décision consiste à rejeter H6 si Fe > Fi-G H-1n-H4 Où Fi-a,H-1n-x est le quantile d'ordre 
1 — a d’une variable aléatoire de Fischer à H — 1 et n — H degrés de liberté. 
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TAB. 5.2 - Tableau d’analyse de la variance à un facteur 


Source de Sommes de Degrés de Carrés Fe 
variation carrés liberté moyens 
SC CM 
INTER SCINTER H —1 CMinTEeR = Re = Gps 


INTRA SCINTRA n — H CMiINTRA = SCINTRA 


n—H 


TOTALE SCror n — 1 CMror = SCror 


n—1 


5.4.3 Méthode 2 


Une autre manière d'écrire le modèle (5.9) sous la forme d’un modèle linéaire consiste à poser 


Qh = Un —mh=1l,... ,H, 


1 H 
p= LS num. 


h=1 
Le modèle s'écrit alors 
Yih = H+ OR + Eih, (5.13) 


avec la contrainte que 
H 
Ÿ_nnan = 0. (5.14) 
h=1 


Le modèle (5.13) a maintenant H + 1 paramètres, et une contrainte sur les paramètres du modèle. Afin de 
pouvoir écrire ce modèle sous la forme d’un modèle linéaire, on intègre la contrainte dans le modèle, sachant 
que 


ji 
AH — — _— NhAR; (5.15) 

PR 

ce qui donne 
Yih = L + Ah + Eih sSl<h<H-—-1 
H-1 

. 5.16 
ViH — H — — >» NhQh + EiH  SInNON. ( ) 


Pour tester l'égalité des moyennes, on peut réaliser le test 


Ho : an = 0, pour tout h=1,..:,H—1 
H; : au moins un des ay, est différent de 0. 


On remarque qu’un test sur les À — 1 premiers coefficients a; suffit, en vertu de l’expression (5.15). Le 
modèle (5.13) s’écrit comme un modèle linéaire général 


y=X0+E, 


= (u 1 @:--ax-1), 
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et la matrice X est de dimension n x H et est donnée par 


1 1 0 ... 0 
1 1 0 ... 0 
1 1 0 0 
1 1 0 0 
1 0 1 0 
1 0 1 0 
1 0 0 
1 0 1 0 
X= | : (5.17) 
1 0 0 1 
1 0 0 1 
1 0 0 .. 1 
1 0 0 .. 1 
1 —m/nn —no/nn - —nn-1/n4 
1 —m/nn —no/nnx + —-nn-1/n4 
1 —nm/nn —no/nng + —-nn-1/n4 
1 —m/nna —no/nng + —-nn-1/n4 


La première colonne de la matrice est donc une constante. Comme l'objectif est de tester la nullité des 
coefficients de regression à l'exception de la constante, on se retrouve dans le cas de la section (5.3.2). 
Estimons les paramètres du modèle. On à 


n 0 0 +. 0 
0 m(i+ m) nin2 NiINH-1 
nin2 : ee nan 1 
X'X = a (+) ne 
NAN nan = 
0 iNH-1 2NH—1 PR nes 
NH NH H 
Son inverse est 
1/n 0 0 0 
1 1 1 1 
De === AE = 
M nn n 
: o 1 1 1 1 
(XX) = n nm On n 
À 1 RE: 
0 = ne RE 
n n NnH_1 NN 
Le vecteur X/y vaut 
ny 
3 ni(ÿ — Yn) 
X y — . 


nn_1(ÿn-1—ÿn) 
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On peut donc calculer l’estimateur de 5. 


= ÿ _ 
B- xx xy-| 7.7 
ÿu-1 9 
L’estimateur de y est donc ÿ et les estimateurs a sont 
QGn=Yn—-ÿh=l,...,H—I1. 
Les valeurs ajustées valent XB, ce qui donne, si h < H—1 
Vin = À + Oh = Ph, 
et si h = H, 


Les résidus valent 
Ein = Yin — Yin = Yin — Yn,h=1,...H, 


On a donc la somme de carrés des résidus qui vaut à nouveau la somme des carrés intra-groupes 


n H nh 
2 — 2 
SCINTRA = ) é > ) (yin — Yn)”, 
i=1 h=1 i=1 
et la somme des carrés de la régression qui vaut à nouveau la somme des carrés inter-groupes 
H nh H 
* —\ 2 — —\2 
SCINTER = > > (gin — 9) = > nn (Un — 9). 
h=1 i=1 R=1 


La statistique de test s’obtient directement à partir de l'expression (5.8) et vaut 


_ SCrnvrer/(H — 1) 
SCrnTrrA/(n — H) 


et est exactement la même que (5.12). En posant le modèle différemment, on estime d’autres paramètres, 
mais les résidus, les valeurs ajustées, et le test sont identiques. 


Fe 


5.5 Prévision ponctuelle d’une valeur 


5.5.1 Cas général 


Une fois le coefficient de régression estimé, il est possible de prédire une valeur pour y en fonction d’un 
ensemble de nouvelles variables explicatives 


Xj = (ji: Tip). 


La prédiction vient simplement et vaut : 


D = (an: Tir) 0. 
Le prédicteur peut également s’écrire 
D = x;b 
xj(X'X)  'X'y 
= x;(X'X) 'X'(XB+E) 
x; +x;(X'X) !X'E. 


Il 
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Comme la vraie valeur vaut 
y =xjB+e;, 
l'erreur de prévision est 
y =x(X'X) 'X'E —e,. 


L’espérance de l'erreur de prédiction est nulle, en effet 
E(ÿ; — y) = E{x; (NX) Xe — 6} = x;(X'X) X'E(E) — E(e;) = 0. 
Comme la valeur prédite se réfère à une nouvelle observation, 
E(e;€) = 0, 
et donc 


var(ÿ;—y;) — var{x;(X'X) 'X'E} +var{c;} 
= sY, (C'X) 'X'o X(X'X) x + 0 
d? {x C'X) x +1}. 


Il 


On constate que la variance se décompose en deux parties. La première partie est due à l’instabilité des 


coefficients de régression, c’est-à-dire la dispersion de (3, et la seconde partie est due à l'erreur inconnue ex. 
On estime la variance simplement par 


Var (y) = 6 {x;(X'X) x +1}, 


où 6? — e/e/(n — p). Enfin, il est possible de construire un intervalle de confiance pour la prévision : 


IC(1 — a) = Li, bi cofonn pl VAE (Us — y} 05 + ina jen pi] Var (G; — w)| 


5.5.2 Cas bivarié 


Dans le cas où une seule variable explicative x et une constante sont utilisées, on a 


2122 _» 
om Fe — "à 


xx = ( 


ns2 =T 1 


De plus, on à x; = (1,x;). La variance de l’erreur de prévision devient alors 
var(d;—y;) = o{x;(X'X) x; +1} 


1 
1. 02 Li (GË +2) x 1 205 — 255 + at} +1] 


GE {n L 14 M). 
nm S% 


Plus x; est éloigné de la moyenne %, plus la variance augmente. Faire une prévision pour des valeurs extrêmes 
de la variable x est donc plus hasardeux. 
On estime la variance simplement par 


Enrre 6? x; — x)? 
var (ÿ; —y;) = cfn+1+ © 2}, 


où 6? —e/e/(n — p). 
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5.6 Exemple d’analyse de la variance à un facteur 


5.6.1 Les données 


Un ensemble de magazines a été classé selon trois groupes selon qu’ils s’adressent à un public d’un niveau 
d'instruction élevé (groupe 1) moyen (groupe 2) ou bas (groupe 3). Dix-huit publicités ont été sélectionnées 
au hasard dans chaque type de magazines. On s'intéresse au nombre de mots dans ces publicités. On cherche 
à savoir si le nombre de mots dépend du type de public visé. Les données sont présentées dans le tableau 
5.8. 


TAB. 5.3 —- Nombre de mots selon les groupes 


Groupe 1 Groupe 2 Groupe 3 | Groupe 1 Groupe 2 Groupe 3 
205 191 162 80 94 68 
203 219 31 208 206 32 
229 205 85 89 197 50 
208 57 111 49 68 208 
146 105 88 93 A4 81 
230 109 60 46 203 83 
215 82 97 34 139 195 
153 88 169 39 72 111 
205 39 78 88 67 208 


5.6.2 Les résultats 


Le traitement statistique nous donne les résultats présentés dans les tableaux 5.4 et 5.5. 


TAB. 5.4 —- Moyennes selon les groupes 


Groupe Moyennes N  Ecart-type 


1 140.00 18 74.0374 
2 121.39 18 64.2698 
3 106.50 18 57.6299 
Total 122.63 54 65.8770 


TAB. 5.5 — Tableau d'analyse de la variance 


sommes de carrés degrés de liberté carrés moyens F Sign. 
Inter Groupes 10141.815 2 5070.907 1.176 0.317 
Intra Groupes 219866.778 51 4311.113 
Total 230008.593 93 


Le test n’est pas significatif. En effet F = 1.176 et la valeur du quantile d’ordre 0.95 d’une Fisher à 2 
et 51 degrés de liberté vaut 3.2. Donc on ne peut pas rejeter l'hypothèse d'égalité des moyennes, malgré 
d'importants écarts des moyennes des groupes pour les valeurs observées. 


Exercices 


Exercice 5.1 En reprenant les calculs de l’exercice 2.6, et en supposant que l’on se trouve dans le cadre du 
MLG avec normalité des erreurs, estimez a? et faites les tests suivants avec & = 0.05 et 0.01 : 


É Bo = 0 
Hi: BoF0 
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es Bi = 0 


H: #0 
ee Po = 1 
H: : Po À 1. 


Exercice 5.2 Construisez un test pour tester les hypothèses suivantes : 
1. Ho : Bj = 0 (uniquement pour un coefficient), 
2. Ho : B; = 0, pour tout j = 2,...,p, (c'est-à-dire pour tous les coefficients sauf la constante), 
3. Ho : PB; = GB; pour deux coefficients à et j donnés, 
4. Ho : e'B = 7 (test sur une combinaison linéaire des coefficients). 


Proposez au moins deux solutions pour R pour chaque test. 


Exercice 5.3 On considère le modèle : 
Ye = Pi + Batos + Pate + Et = 1,...,10. 


Les données de l’échantillon sont résumées de la façon suivante : 


nm nm 102 nm 
Sy =177, Joy=10, ya —20, yes = 40, 
i=1 i=1 i=1 i=1 
nm nm nm nm nm 
> Tr = 5, UE xÿ = 20, Du DE _ DE = 0. 
i=1 i=1 i=1 i=1 i=1 


1. Construisez le tableau d'analyse de la variance, 


2. Calculer le R? 
3. Testez, au seuil de signification à = 0.05, les hypothèses suivantes : 


de. B2 = O3 = 0 ee B3 —3 
Hi: 270 où B3 #0 Hi: B43 


te B3 < 1,5 2. B2 + Ps —8 
Hi: B3>1,5 Hi: bi+63 #8 


Exercice 5.4 En utilisant la technique d’inversion matricielle par parties, montrez l'égalité données en 
(5.7) : 
1 
{Rx R'} =X'P,X 


Indication : Soit une matrice 


À B 
r-(à 8). 
On a 
F1 A-l+A-IBQCA I -A-IBQ 
E —-QCA”! Q 
où 
1 


Q=[D-CA B] 


Exercice 5.5 Reprenez les résultats de l’exercice 2.6 et 2.1, calculez et dessinez des intervalles de confiance 
pour la prévision de la variable expliquée (en choisissant quelques valeurs pour x). 
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TAB. 5.6 - Consommation de crème glacée 


consommation y revenu æ1 température æ2 


386 78 AT 
374 79 56 
393 81 63 
425 80 68 
406 76 69 
344 78 65 
327 82 61 
288 79 47 
269 76 32 
256 79 24 
286 82 28 
298 85 26 
329 86 32 
318 83 40 
381 84 99 
381 82 63 
470 80 72 
443 78 72 
386 84 67 
342 86 60 
319 85 A4 
307 87 40 
284 94 32 
326 92 27 
309 95 28 
399 96 33 
376 94 AT 
416 96 92 
437 91 64 
548 90 71 


Exercice 5.6 La consommation de crème glacée d'individus a été mesurée pendant 30 périodes. L'objectif 
est de déterminer si la consommation dépend du revenu et de la température. Les données sont dans le 
tableau 1. On sait en outre que 


i=1 i=1 i=1 


Sy? = 4001293, Ÿ_ x? = 215846, S_ «2 = 80145, 
i=1 


i=1 i=1 


Say: = 912813, Ÿ_xioyi = 553747, Sœur = 123650, 


i=1 i=1 i=1 


et que 


215846 123650 on 3.987998  —6.152797 ; 1 
123650 80145 7 (—6.152797 10.740450 100000” 


Considérons le modèle de régression 
Yi = Bitia + Baie + Ei, 


où les €; sont des termes d’erreur normaux indépendants et équidistribués. Attention ! Ce modèle n’a pas de 
constante. 
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Estimez 1 et 2 par la méthode des moindres carrés ordinaires. 
Sachant que la somme des carrés des résidus vaut 38912.310, estimez la variance des erreurs. 


Donnez la valeur ajustée et le résidu pour la première observation du tableau 1. 


Estimez la matrice variance-covariance du vecteur {3 = (3, 2). 


DE JO D Er 


La somme des résidus de ce modèle est-elle nulle (réponse sans calcul) ? Justifiez en deux lignes (et 
toujours sans calcul). 


6. Testez (au niveau de 95%) la nullité du coefficient de régression de la variable “température”. 


Exercice 5.7 En considérant le même modèle que dans l’exercice 5.6, on veut tester l’hypothèse que 261 = 
B2. 
1. Donnez une matrice de contrainte R et le vecteur r à utiliser pour construire ce test. (La notation est 
celle utilisée au cours). 
2. Donnez l’expression théorique et simplifiée de la statistique de test. 
3. Faites le test. Peut-on admettre au niveau de 95% l'hypothèse que 241 = B2 ? 


Exercice 5.8 Calculez l’estimateur de la variance des coefficients de régression dans le cas d’un modèle à 
une constante et une variable explicative. Ecrivez ces variances de manière scalaire. 


Exercice 5.9 Les matrices définies en (5.11) et (5.17) définissent le même sous-espace linéaire. Donnez 
les applications linéaires (les matrices) permettant de passer de la matrice (5.11) à la matrice (5.17) et 
réciproquement. Ensuite, faites le produit des deux matrices obtenues. 


Exercice 5.10 Question préliminaire : soit P, = I — 1. le projecteur qui centre les données, I la matrice 
identité, et P x le projecteur sur le sous-space engendré par les colonnes de la matrice X. La première colonne 
de X est constituée de 1. Montrez que 


P.(I-Px)=(I-Px). 


(Inutile de se lancer dans des calculs compliqués, un argument simple se référant à des résultats donnés au 
cours suffit). 
Calculez ensuite les espérances des trois sommes des carrés pour le tableau d’analyse de la variance corres- 
pondant au test : 
Ho : 6j =0, pour tout j —2,...,p, 
H; : au moins un des 6; #0, 
où D est le coefficient de régression se rapportant à la constante, 
1. dans le cas général où H, n’est pas supposé vrai, 
2. dans le cas où H est vrai. 
Sous Ho, que valent les espérances des trois carrés moyens ? 
Indications : 
1. les calculs sont plus simples en utilisant le projecteur qui centre les données, 


2. l'espérance d’une variable aléatoire khi-carré est égale à son nombre de degrés de liberté. 
P 


Exercice 5.11 Pour étudier le comportement maternel de rats de laboratoire, nous éloignons le bébé rat 
de sa mère d’une distance fixée et enregistrons le temps nécessaire à la mère (en secondes) pour ramener son 
bébé au nid. Nous réalisons cette expérience avec des bébés rats de 5, 20 et 35 jours. Les données figurent 
ci-dessous pour six bébés par groupe. On donne le tableau d’analyse de la variance suivant : 
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TAB. 5.7 — Temps selon les groupes 


5 jours 15 10 25 15 20 18 
20 jours 30 15 20 25 23 20 
39 jours 40 35 50 43 45 40 


TAB. 5.8 - Tableau d'analyse de la variance 


Sommes des carrés degrés de liberté Carrés moyens F Sig. 
Inter-groupes 2100.000 2 1050.000 40.127 0.000 
Intra-groupe 392.500 15 26.167 
Total 2492.500 17 


1. Peut-on dire au niveau de probabilité 0.05 que le temps nécessaire pour ramener le bébé dépend de 
l’âge ? Justifiez votre réponse. 
2. Donnez le quantile d’ordre 0.95 de la variable de Fisher correspondant à l’analyse de la variance ? 


3. À partir du tableau d'analyse de la variance donnez la variance (marginale) de la variable “secondes”. 


Exercice 5.12 Une autre partie de l'étude d’'Eysenck (1974) mentionnée précédemment comparait les sujets 
plus jeunes et plus âgés quand à leur aptitude à se rappeler le matériel alors qu’on les avait prévenus qu’ils 
devaient mémoriser les données de manière à s’en souvenir ultérieurement (cette tâche exigeait vraisembla- 
blement un niveau élevé de traitement.) Les données figurent dans le tableau 5.9 (la variable dépendante 
étant le nombre d'éléments rappelés). 


TAB. 5.9 —- Nombre d’éléments rappelés selon l’âge 


Sujets plus jeunes : 21 19 17 15 22 16 22 22 18 21 
Sujets plus âgés : 10 19 14 5 10 11 14 15 11 11 


1. Effectuez une analyse de variance afin de comparer les moyennes de ces deux groupes. 


Exercice 5.13 Une autre approche des données d’Eysenck (1974) consiste à comparer quatre groupes de 
sujets. L’un des groupes se composait de jeunes sujets à qui l’on présentait les mots dans une condition qui 
suscitait un niveau peu élevé de traitement. Un deuxième groupe se composait des sujets jeunes à qui l’on 
donnait des tâches requérant un niveau de traitement plus élevé. Les deux autres groupes comprenaient des 
sujets plus âgés à qui l’on donnait des tâches requérant un niveau de traitement soit peu élevé, soit élevé. 
Les données sont les suivantes : 


1. Effectuez une analyse de variance à un critère de classification sur ces données. 


2. Effectuez à présent une analyse de variance à un critère de classification en opposant les traitements 1 
et 3 combinés (n — 2) aux traitements 2 et 4 combinés. À quelle question répondez-vous ? 


Exercice 5.14 Cet exercice est une étude hypothétique similaire à une expérience importante réalisée par 
Siegel (1975) sur la tolérance à la morphine. La morphine est un médicament souvent utilisé pour atténuer 
la douleur. Cependant, des administrations répétées de morphine provoquent un phénomène de tolérance : 
la morphine a de moins en moins d’effet (la réduction de la douleur est de moins en moins forte) au fil du 
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TAB. 5.10 — Nombre d’éléments rappelés selon l’âge et le niveau 
Jeunes/Peu élevé 8 6 4 6 7 6 5 7 9 7 


Jeunes/Elevé 21 19 17 15 22 16 22 22 18 21 
Agés/Peu élevé 9 8 6 8 10 4 6 5 7 7 
Agés/Elevé 10 19 14 5 10 11 14 15 11 11 


temps. Pour mettre en évidence la tolérance à la morphine, on a souvent recours à une expérience qui consiste 
à placer un rat sur une surface trop chaude. Lorsque la chaleur devient insupportable, le rat va se mettre à 
se lécher les pattes ; le temps de latence qui précède le moment où le rat commence à se lécher les pattes est 
utilisé comme mesure de sa sensibilité à la douleur. Un rat qui vient de recevoir une injection de morphine 
montre en général un temps de latence plus long, ce qui montre que sa sensibilité à la douleur est réduite. 
Le développement de la tolérance à la morphine est indiqué par le fait que les latences se raccourcissent 
progressivement (signe d’une sensibilité accrue) sous l'effet des injections répétées de morphine. 

Prenons une expérience impliquant cinq groupes de rats. Chaque groupe participe à quatre essais, mais 
les données d’analyse sont uniquement prélevées lors du dernier essai critique (test). On désigne les groupes 
en indiquant le traitement appliqué lors des trois premiers essais puis du quatrième. Nous avons les cinq 
groupes suivant : 


1. Le premier groupe (M-M) a reçu des injections de morphine lors des trois premiers essais dans l’envi- 
ronnement de test, puis de nouveau lors du quatrième essai, dans le même environnement ; 


2. Le deuxième groupe (M-S) à reçu une injection de morphine (dans l’environnement de test) lors des 
trois premiers essais puis une solution saline lors du quatrième ; 


3. Les animaux du troisième groupe (Mc-M) ont reçu une injection de morphine lors des trois premiers 
essais, effectués dans leur cage habituelle, puis la même injection lors du quatrième essai, mais dans 
l’environnement de test standard, qu’ils ne connaissaient pas ; 


4. Le quatrième groupe (S-M) à reçu une injection de solution saline durant les trois premiers essais (dans 
l’environnement de test) et de morphine lors du quatrième : 


5. Enfin, le cinquième groupe ($S-S) à reçu une injection de solution saline lors des quatre essais. 


Les temps de latence (en secondes) selon les groupes sont présentés dans le tableau 5.11. Peut-on affirmer 


TAB. 5.11 — Temps de latence selon les groupes 


MS MM S$S SM McM 
3 2 14 29 24 

12 6 20 26 

13 12 36 40 

6 4 21 32 

25 20 
7 3 18 33 
11 9 26 27 
19 21 17 30 


OO HR H O0 MH CO 
= 
[= 
= 
Le) 


que : 
1. Les cinq groupes ont une perception de la douleur identique malgré les différents traitements (à 99%) : 
Un tableau de l’analyse de la variance à déjà été partiellement calculé : 


2. Le groupe M-M et S-$S ont une sensibilité différente à la douleur (à 99%). 
Un tableau de l’analyse de la variance a déjà été partiellement calculé. 


Pour répondre aux questions à. et b. (à traiter séparément) : 
— Posez les hypothèses ; 
— Complétez les tableaux de l’analyse de la variance ; 


70 


TAB. 5.12 - Tableau incomplet d'analyse de la variance 


sommes de carrés degrés de liberté carrés moyens F 


Inter Groupes 3497, 6 ? ? ? 
Intra Groupes ? ? 32 
Total ? ? 


TAB. 5.13 —- Tableau incomplet d'analyse de la variance 


sommes de carrés degrés de liberté carrés moyens F 


Inter Groupes 4 ? ? ? 
Intra Groupes ? ? ? 
Total 504 ? 


— Testez les hypothèses. 


Exercice 5.15 Les données suivantes représentent les tailles et poids réels pour des étudiants américains 
de sexe masculin. Les mesures sont exprimées en pouces et en livres. 


1. Estimez les coefficients du modèle 
Yi = Bi + Bot: +ei=1,...,n, 


où les €; sont des termes d’erreur normaux, non corrélés de moyenne nulle et homoscédastiques. 
2. Donnez un estimateur sans biais de la variance des erreurs. 
3. Que vaut la valeur ajustée pour un individu mesurant 70 pouces ? 


4. Peut-on affirmer au niveau de probabilité de 0.95 pour-cents, que la pente de la droite de régression 
vaut 5 (test bilatéral) ? 


On a déjà réalisé les calculs suivants : 


Le Le 
x = 70.7544 ÿ = 158.26 2 = 5012.7368 . 2 — 25388.4386 = sy = 11226.33596. 


i=1 i=1 i=1 


Exercice 5.16 Une autre étude sur le même sujet nous donne la droite de régression suivante : 
Poids — —155 + 4.5 taille + résidus. (5.18) 
On se demande si il n’est pas possible d’invalider cette hypothèse au moyen des données précédentes. 
1. Construisez un test permettant de tester l’hypothèse 


H5 : Bi = —155 et Pa = 4.5 
H3 : au moins un des deux coefficients est différent de ces valeurs 


le coefficient 1 est la constante et H2 est le coefficient de régression se rapportant à la variable 
taille. Construisez d’abord le test de manière théorique en simplifiant au maximum l'expression, et 
en l’écrivant de manière scalaire (et non plus matricielle). 

2. Testez l'hypothèse au moyen des données de lexercice précédent (a = 0.05). 


3. Les données permettent-elles d’infirmer le modèle (5.18) ? 
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TAB. 5.14 — Tailles (en pouces) et poids (en livres) des étudiants 


Taille x Poids y | Taillex Poids y 
70 150 73 170 
67 140 74 180 
72 180 66 135 
75 190 71 170 
68 145 70 157 
69 150 70 130 
71.5 164 75 185 
71 140 74 190 
12 142 71 155 
69 136 69 170 
67 123 70 155 
68 155 72 215 
66 140 67 150 
72 145 69 145 
73.5 160 73 155 
73 190 73 155 
69 155 71 150 
73 165 68 155 
72 150 69.5 150 
TA 190 73 180 
72 195 75 160 
71 138 66 135 
TA 160 69 160 
72 155 66 130 
70 153 73 155 
67 145 68 150 
71 170 74 148 
72 175 73.5 155 
69 175 


Exercice 5.17 Soit le modèle à 5 paramètres suivant (dit d'analyse de la variance à deux facteurs) : 
Yijk = UE A; +Vk + Es, 


où j = 1,2, k = 1,2, @i + 2 = 0, 1 + 2 = 0, et les £;;x sont homoscédastiques et non-corrélés. L'objectif 
est d'estimer ces 5 paramètres avec un programme de régression multivariée classique. 
— Écrivez le modèle sous forme matricielle. 
— Quel est le rang de la matrice X des variables explicatives ? 
— Réécrivez le modèle et la matrice X de manière a obtenir une matrice de plein rang. Quels sont les 
liens entre les nouveaux et les anciens paramètres ? 
— Comment peut-on procéder pour estimer les paramètres avec un programme de régression multivarié ? 


72 


Chapitre 6 


Mhulticolinéarité et choix des variables 


6.1 La multicolinéarité 
Parfois, dans le modèle linéaire général, 
y=XB+Ee, 


la matrice X n’est pas de plein rang. La matrice X/X n’est alors pas inversible. Cependant il est encore 
possible de réaliser une régression, au sens où l’on peut toujours définir le sous-espace engendré par les 
colonnes de X et projeter le vecteur y sur ce sous-espace. Pour réaliser cette projection on utilisera l’inverse 
généralisée d’une matrice. 


Définition 6.1 La matrice A est une inverse généralisée (ou pseudo-inverse) de la matrice A si et seule- 
ment si 


AA A—A. 


L’inverse généralisée n’est pas unique, il existe donc une multitude de solutions, mais il n’existe qu’une seule 
inverse généralisée dite de Moore-Penrose AT qui vérifie 


Exemple 6.1 Soit 


On a 


et 


Exemple 6.2 Soit 
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Exemple 6.3 On peut calculer l'inverse généralise de Moore-Penrose d’une matrice non-carrée. Soit X une 
matrice n x p de plein rang, alors 
XT =(X'X) x". 


On peut vérifier qu’on a bien les propriétés de l’inverse de Moore-Penrose. 
P q prop 


Il est possible de montrer que le projecteur 
Px=X(X'X) X, 


ne dépend pas de la pseudo-inverse utilisée. 
Il est donc possible de faire une régression même avec une matrice X qui n’est pas de plein rang, car le 
projecteur P x est unique, et il est donc possible de calculer la valeur ajustée 


Y° =Pxy, 


et le résidu. 
e=y-y*=(1-Px)y. 
Cependant, si la matrice n’est pas de plein rang, il existe une indétermination sur les coefficients de 
régression. En effet 


B= (XX) X'y, 
n’est pas unique. On pourrait choisir le coefficient donné par l’inverse de Moore-Penrose, il n’est alors pas 
possible de réaliser une inférence sur 3 car la variance de certains coefficients de régression n'existe pas. 

Si la matrice X n’est pas de plein rang, il est toujours possible de réaliser une régression, c’est-à-dire de 
construire un projecteur sur le sous-espace engendré par les colonnes de la matrice X. Cependant, il y aura 
une indétermination sur les coefficients de régression et la non-existence de certaines variances. Pour ces 
raisons, on préfère aborder le problème en supprimant la ou les variables redondantes, ce qui nous ramènera 
à un problème standard. 


6.2 Détection de la multicolinéarité 


6.2.1 Le problème 


La multicolinéarité se définit donc comme le fait que la matrice n’est pas de plein rang. Le logiciel signale 
alors le problème, car il ne peut pas procéder à l'estimation des paramètres. En pratique, on est plutôt 
confronté à des cas un peu limite, quand la matrice est “presque” de rang maximum, ce qui se traduira par 
un déterminant très petit ou par une valeur propre très petite. 

Dans des cas simples, on constate parfois que deux variables explicatives ont un coefficient de corrélation 
très proche de 1 ou -1, mais la multicolinéarité est parfois difficile à détecter, car la relation entre les variables 
explicatives peut être complexe. 

Pour détecter la multicolinéarité, nous utiliserons les indicateurs suivants : 
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R?, le coefficient de détermination pour le modèle de régression de la variable y par les variables 
T1,...,Lj,..., op. 
- R? ; le coefficient de détermination pour le modèle de régression de la variable y par les variables 
List Titus dns 
= R, le coefficient de détermination pour le modèle de régression de la variable x; par les variables 
Laisser 1 dites bp 


— D le déterminant de la matrice de corrélation des variables æ1,...,%;,...,%n. 
Si la variable x; est une combinaison linéaire des autres variables explicatives, alors : 

— R? ; sera proche de R?, 

— RŸ sera proche de 1. 


6.2.2 Méthode de Klein 


La méthode de Klein consiste à examiner les carrés des coefficients de corrélation par paires Te entre les 


variables explicatives x; et x, avec j £ k. Si l’un de ces coefficients est plus grand que R?, alors on peut 
soupçonner la multicolinéarité. 


6.2.3 ‘Test de Farrar et Glauber 


Le test de Farrar et Glauber teste que le déterminant D de la matrice de corrélation est égal à 1. Le 
coefficient ne peut être égal à 1 que si les variables explicatives sont orthogonales, le test est donc 


Ho : Les variables explicatives sont des variables aléatoires non-corrélées 
H; : Les variables explicatives sont des variables aléatoires corrélées. 


Le test est basé sur le fait que sous H6 et avec une hypothèse de normalité, la statistique 


1 
Xobs = — n du sUr+ 5) lo D 
a une distribution khi-carré à p(p — 1)/2 degrés de liberté. 


6.2.4 Facteur d'inflation 
Le facteur d'inflation est la quantité 
1 


FI = ——.;. 
I- RE 


Si cette quantité est très grande pour une variable, alors on peut soupçonner la multicolinéarité, et que cette 
multicolinéarité soit due à la variable x;. Si il y a multicolinéarité, au mois deux variables sont impliquées. 


6.2.5 Coefficient de Theil 


Le coefficient de Theil est : 


m= RS (R-R?,;). 


j=1 
Le coefficient de Theil est égal à 0 si toutes les paires de variables ont des coefficients de corrélation nulles, 
il n’a alors pas de multicollinéarité. Si ce n’est pas le cas, le coefficient de Theil peut être positif ou négatif. 


6.2.6 Résolution du problème 


Si une variable explicative est manifestement une combinaison linéaire des autres variables, alors, on peut 
supprimer cette variable du modèle. Une autre optique consiste à utiliser une technique itérative pour la 
construction du modèle. 
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6.3 Méthodes de choix de variables 


Afin de tenter de contrôler le problème de la multicolinéarité, plusieurs méthodes itératives de construction 
de modèles ont été proposées. 


6.3.1 Méthode Backward 


La technique consiste à introduire toutes les variables dans le modèle, à condition bien sûr que l’on puisse 
calculer sans indétermination les coefficients de régression. Tant que certains { de Student des coefficients de 
régression sont en dessous du seuil critique, à chaque étape, on élimine une variable. On élimine la variable 
ayant le t de Student le plus proche de 0. 


6.3.2 Méthode Forward 


La méthode Forward consiste à ajouter une variable dans le modèle à chaque étape. À la première 
étape, on introduit dans le modèle la variable x; la plus corrélée avec y. Ensuite, à chaque étape, on calcule 
pour toutes les variables qui ne sont pas dans le modèle, les carrés des coefficients de corrélation partielle 
relativement aux variables qui sont déjà dans le modèle, afin de mesurer comment chacune des variables peut 
“améliorer” le modèle. On introduit dans le modèle la variable dont le carré du coefficient de corrélation 
partielle est le plus élevé. Enfin, on arrête la procédure, dés que l’on obtient un t de Student non-significatif. 


6.3.3 Méthode Stepwise 


La méthode Stepwise alterne une étape où l’on ajoute une variable dans le modèle avec une étape où 
l’on enlève éventuellement une variable du modèle. La règle d'introduction d’une variable est la même que 
dans la méthode Forward. Ensuite on fait un test de Student sur chacun des coefficients, et éventuellement, 
on enlève une variable du modèle. 


6.3.4 Mise en garde 


Il faut cependant être prudent en utilisant des méthodes itératives pour la construction de modèles. 
En effet, ces techniques sont basées sur la répétition de tests d’hypothèses. Ces tests sont susceptibles de 
conduire à des décisions fausses, et donc la multiplication de tests augmente les probabilités de prendre des 
décisions fausses. Plus le nombre de variables susceptibles d’entrer dans le modèle est élevé, plus on risque 
d'introduire à tort des variables non-pertinentes. 
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Chapitre 7 


Méthode des moindres carrés 
généralisés 


7.1 Les hypothèses du modèle linéaire général 
Défini sous forme matricielle, le modèle linéaire s'écrit. 


y = XB+Ee. 


— X est une matrice de constantes (non-aléatoire) de plein rang de dimension n x p des x:;. 

— (Best un vecteur (inconnu) de R?. 

— € est un vecteur (inconnu) de dimension n de variables aléatoires €;. 

— E(€E) = 0, 

— var(s;) = a? (homoscédasticité). 

— cov(£;,€;) = 0 (toutes les corrélations sont nulles). 

Seuls y et X sont observés. 

Une présentation plus synthétique du modèle linéaire général est la suivante : soit y un vecteur aléatoire 
de R” tel que 

— E(y) = XB où X est une matrice n x p et B € RP, 

— var(y) = I0? où I est une matrice identité n x n et a? est un scalaire. 

La condition var(y) = Io? inclut en fait deux hypothèses : 

1. absence de corrélation entre les termes d’erreur (les éléments extradiagonaux de la matrice var(y) sont 

nuls). 

2. absence d’hétéroscédasticité (tous les éléments diagonaux de la matrice var(y) sont égaux). 

Dans beaucoup d’applications ces deux hypothèses ne sont pas réalistes. Dans des séries temporelles, les 
termes d’erreur sont souvent corrélés. De même, si l’on analyse des unités statistiques régies par un effet 
de taille, alors les variances, et donc les termes d’erreur, sont aussi régis pas un effet de taille, il y à donc 
hétéroscédasticité. Dans un premier temps, nous allons lever ces deux hypothèses et proposer une méthode 
d'estimation : la méthode des moindres carrés généralisés. Ensuite, nous appliquerons cette méthode aux 
problèmes d’héteroscédasticité et de corrélation des termes d’erreur. 


7.2 La méthode des moindres carrés généralisés 
Soit le modèle général : 
y = XB+E. (AE) 


où X est une matrice de constantes, 

E(€) = 0, var(E) = a2Q, 
et ® est une matrice n X n, symétrique, définie positive, de plein rang. La matrice @ = [w;;] n’est pas 
nécessairement diagonale. Les hypothèses d’homoscédasticité et de non-corrélation des termes d’erreur sont 
donc levées. 
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Une première approche pour estimer 3 consiste à utiliser la méthode des moindres carrés généralisés. On 


minimise le critère : 
ARE 
Qc(B) = (y - XB) A7 (y -XB). 
En annulant la dérivée par rapport à 3, on obtient l’estimateur par les moindres carrés généralisés (MCG) : 


0Qc(B) 
76) 


et finalement, en supposant que (X'Q71X) est inversible : 


=2X 071 (y-XB) = 0, 


Dé = (Ga x)” X'Q7 "y. 
L’estimateur des moindres carrés généralisés est sans biais. En effet, 
E(Buce) = (KA TX) XAUE (KB +e) = 8. 


Notons que l’estimateur des moindres carrés ordinaires (MCO) est également sans biais même pour le 
modèle (7.1) 


E (Buco) = (XX) ‘XE(XB+e) = 8. 
Le fait d’avoir des termes d’erreur corrélés et de l’hétéroscédasticité ne fait pas perdre la propriété d’absence 
de biais de 5 mco- Cependant, l’estimateur des moindres carrés ordinaires n’est plus l’estimateur optimal 
pour le modèle (7.1). 
Théorème 7.1 (généralisé de Gauss-Markov) Sous le modèle (7.1), l’estimateur des moindres carrés généralisés 
Bucca = (ÆA IX) IX/Q y est le meilleur (au sens de la plus petite variance) estimateur linéaire en y 
sans biais de BB. 
La démonstration est une généralisation du théorème de Gauss-Markov développée sous les hypothèses 
d’absence d’autocorrélation et d’hétéroscédasticité. 
La variance de B,,0G se calcule assez facilement 
var(Bucc) = (LA TIX) X/Q var(y)Q X(X'A IX) 
= (X9 1x) !x'0 6200 !xX(xX/0 7 1X) ! 
= REX) 07 


et peut être estimée sans biais par 
Va(Buce) = (K'ATX) GE. 


où 
2 1 À = À 
Ge = 0 ZE XBucc)' A re XBuca). 


7.3  Estimateur des moindres carrés généralisés et projection oblique 
L’estimateur des moindres carrés généralisés permet de définir des valeurs ajustées 
"= XBy0c = X(X'N IX) IX y = Pxcy. 


où P x est une matrice idempotente représentant un projecteur oblique sur le sous-espace engendré par les 
colonnes de la matrice X (l’image de X ou Im(X)) : 


Pre=xX(X A x) !xXQ 1. 
On peut également calculer les résidus. En effet, 
Ê=e=y-y" =(1-Pxc)y = PXay = Pxc€ 


où 
Pc =1-Pxa. 


La matrice PL est également idempotente, et est aussi un projecteur oblique sur l’orthogonal du sous-espace 
engendré par les colonnes de la matrice X. 
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7.4 Retour au moindres carrés ordinaires 
Supposons que nous identifiions une matrice M de dimension n x n et de plein rang tel que le vecteur 


2 


soit non-corrélés et homoscédatistique, autrement dit, Eu;] = 0, covlu:, u;] = 0,i # j, et var(u:] = 0%. 


Remarquons que 
var[u] = 10° = var [Me] = Mvar [€] M = MNo°M'. 


En prémultipliant cette dernière équation par M’ et en la postmultipliant par M, on a 
MMo* = MMOoM'M. 
Comme M est de plein rang, M'M est inversible. En inversant les deux membres de cette égalité, il vient 
(MM) ! (MM) {Q !(MM) ! 


= 2 ; 
€ 


o2 œ 
ce qui permet d’obtenir, en prémultipliant et en postmultipliant par M'M : 
MM Qt! 


2 * 
€ 


CR 
Alors, en prémultipliant le modèle général (7.1) par M, on obtient 
My = MXG + ME = MXB + u. 
En posant ÿ = My et X = MX, on peut réécrire le modèle 
ÿ=XB+u. 
On retrouve alors un modèle classique avec des termes d’erreur d’autocorrélation nulle et homoscédastique. 
La matrice des variables explicatives est X — MX et le vecteur des variables expliquées est ÿ = My. 
L’estimateur des moindres carrés ordinaires est alors 
B= (XX) *X'ÿ = (X'M'MX) !X'M'My. 
Comme M'M = Q!6?/0?, on retrouve l’estimateur par les moindres carrés généralisés : 


B=(xa x) "xe ty. 


7.5 Méthode du maximum de vraisemblance 
Supposons que le modèle général ait des termes d’erreur multinormaux, autrement dit 
y = XB+E. (7.2) 
où X est une matrice non-aléatoire et 
€ = N(0,0°Q). 
Si ( est de plein rang, la fonction de densité de € vaut 


fe(u) 1 : ( Sr) 
€ — EXP , 
(2r02)"/? |a|1/2 202 


La fonction de vraisemblance s'écrit : 


L(B, 0?) = : Ce net -XB) 


e 
(2702)? |Q/1/2 
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Le logarithme de la fonction de vraisemblance vaut : 


U(B, 6?) . log L(B, o°) 


= 5 log(27) — 5 log(o?) — 5 108 a - EXBA (XP) 


2 
202 


En annulant les dérivées partielles par rapport aux paramètres, on obtient 


OU(B,02) _ X'Q_y-X'OUXB | 
0B o 


0, 


et 
O(B, 5? n 1 =. 
_ Le 555 * 5510 - XB)'Q (y -XB) = 0. 


La solution du maximum de vraisemblance pour {3 est à nouveau la même que la solution des moindres 
carrés généralisés, et vaut : 


B=(XA 1x) 1x0" y. 


L’estimateur du maximum de vraisemblance de a? est donné par 
Syv = L(y-XB)N- (y - XB 
Gemv = ) Fém ). 
L’estimateur VIT est biaisé, mais il est possible de construire un estimateur sans biais 


= ——(y-xX8)N (y - x). 


7.6 Intérêt des moindres carrés généralisés 


Le problème de ce résultat est que la matrice ® n’est pas toujours connue. Il faudra alors estimer Q. 
Cependant ® est constitué de n termes diagonaux et de n(n — 1)/2 termes extra-diagonaux. Il est donc 
impossible de considérer la matrice ® comme un ensemble de paramètres à estimer. En effet, on aurait 
n(n+1)/2 paramètres, pour seulement n valeurs observées. On ne peut donc pas se passer de la formulation 
d’hypothèses afin d'estimer Q. 

On peut dès à présent formuler deux hypothèses qui ne sont pas suffisantes pour pouvoir estimer (@, mais 
qui réduisent considérablement le nombre de paramètres à estimer. 

— La matrice (® est diagonale. Autrement dit, il y a seulement de l’hétéroscédasticité et pas d’auto- 

corrélation, c’est-à-dire que les éléments de la diagonale ne sont pas tous égaux. 

— Tous les éléments diagonaux de ( sont égaux. Autrement dit, il y a homoscédasticité, et de l’auto- 

corrélation. Il reste alors n(n — 1)/2 paramètres à estimer. 
Ces hypothèses sont réalistes car l’autocorrélation et l’hétéroscédasticité ne ne présentent pas souvent conjoin- 
tement. L’autocorrélation est spécifique des modèles de séries temporelles, et l’hétéroscédasticité est typique 
des modèles en coupe (pour un instant particulier). 


7.7 Détection de l’hétéroscédasticité 


7.7.1 Le problème 


L’hétéroscédasticité apparaît quand on traite des unités pour lesquelles il peut exister un effet de taille. 
Par exemple, si les unités statistiques sont des entreprises, les variances liées aux grandes entreprises seront 
beaucoup plus élevées que les variances des petites entreprises pour toutes les variables liées à cet effet de 
taille : nombre de travailleurs, investissement, chiffre d’affaires. 

On suppose alors que le modèle s’écrit 

y=XB+e, 
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avec E(E) = 0, et var(e) = Q, où 


q2: HO 0 0 
Uno: 0 0 
Lad DORE 02 0 
0 0 0 o2 


Exemple 7.1 Pour les 454 communes belges de moins de 20 000 habitants en 2004, on dispose de deux 
variables : le nombre habitants dans la communes en 2004, et le revenu total imposable de tous les habitants 
de la commune en millions d’euros. La Figure 7.1 montre le nuage de points pour le croisement de ces deux 
variables. La relation entre les deux variables est bien linéaire, mais la dispersion augmente avec la taille de 
la commune. C’est un cas typique d’hétéroscédasticité. 


F1G. 7.1 - Nombre d’habitants et revenus total pour les 454 communes belges de moins de 20 000 habitants 
en 2004 
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7.7.2 Graphique des résidus 


Il est toujours intéressant de représenter le nuage de points des résidus en fonction des différentes variables 
explicatives. 


Exemple 7.2 Le Tableau 7.1 reprend la population en milliers d'habitants et les revenus totaux du cantons 
en millions de francs. 

Le nuage de points de ces deux variables est présenté dans la Figure 7.2. La Figure 7.2 ne montre pas 
clairement l’hétéroscédasticité. Cependant, si l’on estime un modèle de régression simple par la méthode des 
moindres carrés ordinaires, on obtient 


Revenu = —1353.66 + 51.81 x Population + Résidus. 


Dans la Figure 7.3, on a calculé les résidus de cette régression, et l’on a ordonné les cantons selon leur taille 
(en terme de population). Le graphique des résidus de la Figure 7.3 met bien en évidence l’hétéroscédasticité. 
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TAB. 7.1 - Population des cantons suisses en milliers d'habitants en 2001 et revenus des cantons 


Canton Population Revenu du canton 

en milliers d'habitants en millions de fr. 
Appenzell Rh.-Int 15 588 
Obwald 33 1151 
Uri 35 1468 
Glaris 38 1796 
Nidwald 39 1989 
Appenzell Rh.-Ext 53 2273 
Jura 69 2263 
Schaffhouse 73 3093 
Zoug 101 7191 
Schwytz 131 6235 
Neuchâtel 166 6645 
Grisons 186 7782 
Bâle-Ville 187 11978 
Thurgovie 228 9639 
Fribourg 239 9055 
Soleure 246 10425 
Bâle-Campagne 261 13415 
Valais 278 9692 
Tessin 312 11181 
Lucerne 391 14319 
Genève 414 20763 
Saint-Gall 453 19356 
Argovie 551 26655 
Vaud 626 30272 
Berne 947 38796 
Zurich 17229 72504 


F1G. 7.2 — Nombre d'habitants et revenus total pour les cantons suisses 
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Exemple 7.3 Avec les données relatives aux communes belges de moins de 20000 habitants, les résidus 
sont présentés dans la Figure 7.4. 


L’hétéroscédasticité apparaît en général sur les graphiques de résidus. Cependant, il est évidemment plus 
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F1G. 7.3 — Résidus de la régression en fonction des cantons classés par ordre croissant de population 
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F1G. 7.4 — Résidus de la régression des revenus par la population en fonction des communes belges classés 
par ordre croissant de population 
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rigoureux de recourir à un test d’hypothèses. 


7.7.3 Test de White 


Le test de White sert à déterminer si les carrés des résidus sont liés aux variables explicatives. On estime 
d’abord les coefficients de la régression de la variable y par les variables explicatives x au moyen de la méthode 
des moindres carrés ordinaires. Ensuite, on effectue une seconde régression où la variable dépendante est le 
carré du résidu e; de la première régression et les variables explicatives sont les variables explicatives de la 
première régression auxquelles on ajoute les carrés de ces variables et leurs produits. 

Par exemple si le modèle pour lequel on soupçonne de l’hétéroscédasticité est 


Yi = Bo + Bitii + Patio + Bstis + €. 


On estime par les MCO les coefficients Bo, 1, B2 et B3, ce qui permet d’estimer les résidus e; = &;. On 
considére ensuite la régression 


2 2 2 2 
€ = Vo + Nitii + Vadiz + Vatis + Vati + Voie + Vétis + Vrlutia + Veil + Votiatis + W. 


Si on note R? le coefficient de détermination estimé pour ce nouveau modèle, il est possible de montrer que 
sous l'hypothèse nulle (H5) d’homoscédasticité, 


2 2 
nee Xi: 
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où q est le nombre de variables utilisées dans ce nouveau modèle. On rejette H5 si nR? > RTE Un 
inconvénient de ce type de test est que le nombre de variables peut devenir très important au regard de la 
taille de l’échantillon. 


Exemple 7.4 Avec les données sur les cantons suisses présentées dans la Tableau 7.1, on a d’abord estimé 
un simple modèle linéaire donné par : 


Revenu = —1353.66 + 51.81 x Population + Résidus. 


On a ensuite estimé le modèle 


Résidus? = 1 + 72 x Population + 3 x Population? + Nouveaux Résidus, 
et on a obtenu 
Résidus? = 4959954.70 + —39391.24 x Population + 101.21 x Population” + Nouveaux Résidus. 


Les coefficients sont présentés dans le Tableau 7.2 où l’on constate que les coefficient 2 et 73 sont significa- 
tivement différents de 0. De plus R? — 0.8963. 


TAB. 7.2 - Coefficients du modèle sur le carré des résidus 


Coefficients  Estimate Std. Error statistique { Pr(> |t|) 
constante 4959954.70 3077865.80 1.611 0.1207 
Population  -39391.24 16919.21 -2.328 0.0291 
Population? 101.21 14.79 6.842 5.61e-07 


On peut donc tester l’homoscédasticité. Comme R? — 0.8963, nR? — 26 x0.8963 — 23.30. De plus le quan- 
tile d'ordre 95% d’une variable aléatoire chi-carré à q — 1 = 3 — 1 = 2 degrés de liberté vaut *3,0.95 = 5.991, 
on rejette donc l’hypothèse d’homoscédasticité. 


7.7.4 Test de Goldfeld-Quant 


Le test de Goldfeld-Quant s’applique quand on soupçonne que l’hétéroscédasticité est liée à une variable 
particulière. Souvent cette variable est liée à un effet de taille. On soupçonne donc une relation positive entre 
une variable particulière et l’hétéroscédasticité. On commence par trier les données selon cette variable. 

Ensuite on calcule deux régressions séparées sur les k premières et les k dernières observations. Il faut 
évidemment que 2k < n, et que k > p où p est le nombre de paramètres du modèle. On omet donc les 
c=n—2&k observations centrales. On calcule ensuite SCye:1, SCres2 SCregr1; SCregr2 qui sont respectivement 
les sommes des carrés résiduelles et de la régression pour les k premières et les k dernières unités. La statistique 


de test est 
SCyres2/(K . D) 
SCres1/(K — D) | 
et suit, sous l’hypothèse nulle (Ho) d’homoscédasticité, une loi de Fisher à (k—p) et (k—p) degrés de liberté. 


Exemple 7.5 On utilise les données sur les cantons suisses présentées dans le Tableau 7.1. Les données 
ont été scindées en trois groupes : les 9 plus petit cantons, les 8 cantons intermédiaires et les 9 plus grands 
cantons. 

— Sur les 9 plus petits cantons le modèle de régression estimé est donné par : 


Revenu — —1009.73 + 68.86 x Population + Résidus. 
Les résidus valent 
564.85232, —111.60586, 67.67657, 189.10020, 313.24141, —366.78162, —1478.52222, —423.95737, 
La somme des carrés des résidus vaut 


SCresi = 4522777. 
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— Sur les 9 plus grands cantons le modèle de régression estimé est donné par : 
Revenu — —6887.5 + 59.2 x Population + Résidus. 
Les résidus valent 
122.2070, —401.5554, 4276876, 3142.1572, —573.5997, 923.9085, 100.9914, —10377.8541, 
La somme des carrés des résidus vaut 
SCres2 = 163162186. 
On peut dès lors calculer la statistique de test 


res2/(k — 26 Résidus?  163162186 
pe = SOre2/(E D): Lire Ré se = 36.07566. 
SCyres1/(k un p) ne Résidus; 4522777 


Comme k —=9,p=2et k — p = 7, sous Ho, Frs suit une loi de Fisher à k — p = 7 et k — p = 7 degrés de 
liberté. Comme F770.95 = 3.787, Fos > F77,0.95 = 3.787, on rejette l’hypothèse d’homoscédasticité. 


7.8 Estimation avec hétéroscédasticité 


7.8.1 Si la variance est connue 


Méthode 1 


Dans certains cas, la variance peut être connue, par exemple, si les unités statistiques sont des entreprises, 
la variance peut être liée à un effet de taille notée z, et la taille de l’entreprise (par ex. le nombre de travailleurs 
peut être une variable connue). Dans ce cas, on est face au modèle : 


y=XB+Ee, 
avec E(E) = 0, et var(e) = Q, où 
Gr 20: fai 100 ha! À an 0 0 0 
0 o?, 0 0 0 2 0 0 
> à las . 
Le cÀ Qu lo 0 z Na 
0 0 0 02, 0 0 0 %. 


où 
Z = diag(z1,...,2n). 
Les valeurs z; sont supposées strictement positives. 
L’estimateur des moindres carrés généralisés peut être construit sans qu’il soit nécessaire de se poser des 
questions sur la valeur de o?, en effet 


1 


Bye = (&'NUX) XL y = (X/(022) 1X) X/(022) ty = (X'Z 1X)  X'Z y. (7.3) 


Méthode 2 


Il est également possible de traiter ce problème, avec les moindres carrés ordinaires, en effet, en notant 


1/4 0 Du 0 Ne 0 

0 1/22 0 te 0 
ei DE 0 1/4 : 0 |? 

0 0 0 1/V2n 
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6636.0574. 


on à 
MM=Z =Q 0", 


et donc le modèle 
My = MX + ME, 


avec E(ME) = 0, et 
var(ME) = MQM = MZo?M = 0°. 


En pratique, on va simplement transformer les variables 


LENS ( Eh Lx ee, én ) 
VA de Jo: 
et X = MX où X — (ii) et Li = xij/ x. Le modèle s’écrit alors simplement 
ÿ = XB +u, 


et comme var(u) = Io?, on peut utiliser la méthode des moindres carrés ordinaire pour estimer /5. 

Donc, avec ÿ = My comme vecteur de variables dépendantes et X = MX comme variables explicatives, 
on a à nouveau l’homoscédasticité. Dans ce cas, on peut utiliser l’estimateur par les moindres carrés ordinaires 
qui est o 

B= (XX) X'ÿ=(X'MMX) ‘X'M'My = (X/ZX) | X/Zy 


et qui n’est autre que (7.3). 


7.8.2 Exemple de variance connue 


Dans les données relatives aux communes belges de moins de 20000 habitants, la dispersion semble 
directement liée à la variable explicative (nombre d’habitants). La variance est donc proportionnelle au carré 
de la variable explicative. Nous pouvons considérer plusieurs modèles. 


Modèle avec constante et hétéroscédasticité 


Dans ce premier modèle, on utilise une régression avec une constante et des termes d’erreur hétéroscédastique. 
È 2,2 
Yi = Bi + Bari + ei, où var(e;) = o°x;. (7.4) 


Pour se ramener à un modèle homoscédastique, on peut simplement diviser chacun des modèles par x;, ce 
qui donne : 
Yi _ Bi Ep. _< 
= = + B2 + À, où var(s;) = 0°r?. 


En posant ÿ = y/æ;, u; = e;/x; et z; = 1/x;, on obtient 


2,2 
€; ar (€; | 

var(us) = var ( :) Se i) ee _ = o?. 
Ti T; 


Les nouveaux termes d’erreur sont maintenant homoscédastiques. Le nouveau modèle peut alors s’écrire 


di = Biz + Po + w;, où var(u;) = o?. 
Le modèle se ramène à un modèle avec constante dont la variable dépendante est ÿ; = y;/x; et la variable 
indépendante est z; = 1/x;. Les résultats sont données, dans le Tableau 7.3, qui montre que la coefficient 
BP n’est pas significativement différent de 0. On imaginera donc un modèle plus simple en supprimant le 
coefficient G2. 
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TAB. 7.3 — Estimation de paramètre de la régression avec constante de y/x par 1/x 


Coefficients Estimations Std. Error statistique { Pr(> lt) 
constante (H2) 1.143e-02 8.756e-05 130.556 < 2e — 16 
1/x (G1) -1.099e-01 1.521e-01  -0.722 0.47 


Modèle sans constante et hétéroscédasticité 


Au vu du résultat obtenu dans le Tableau 7.3, on peut supprimer du modèle (7.4) la constante. On obtient 
ainsi un modèle sans constante et avec hétéroscédasticité. 


Yi = Pi + ei, où var(e;) — d°x?. 


Pour se ramener à un modèle homoscédastique, on peut simplement diviser chacun des modèles par x;, ce 
qui donne : 
Ei N 
= B+ TT, où var(e;) = 0°x°. 
"a 
En posant ÿ = y;/æ; et u; = €;/x;, on obtient 


Yi = B+u, où var(u;) — o?. 


Le modèle réduit est donc extrêmement simple puisqu'on obtient une régression de ÿ; = y;/x; par une 
constante comme variable explicative et que les termes d’erreur sont maintenant homoscédastiques. 
En estimant le paramètre par la méthode des moindres carrés ordinaires, on obtient 


ce qui donne 
ÿi = 0.01141 + ü;, 


et en multipliant par x;, on revient au modèle de départ pour obtenir finalement : 
La Figure 7.5 montre, en outre, que l’hétéroscédasticité n’est presque plus présente dans les résidus à;. 


F1G. 7.5 — Résidus ü; de la régression sans constante du revenu par la population en fonction des communes 
classées par ordre croissant de population 
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FIG. 7.6 — Nuage de points : logarithme du revenu par le logarithme du nombre d’habitants 
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Passage par le logarithme des variables 


Quand on est en présence d’hétéroscédasticité, il est parfois intéressant d’utiliser le logarithme des va- 
riables. En utilisant les données des communes belges présentées dans la Figure 7.1, le nuage de points 
obtenu en croisant les logarithmes des variables “population” et “revenu” est présenté dans la Figure 7.6. 
On y constate que l'essentiel de l’hétéroscédasticité a disparu. 

On pourrait donc concevoir le modèle suivant 


log(y;) = B1 + Brlog(ri) + €, où var(e;) = 0°. (7.5) 


Notons que ce modèle peut également s’écrire 
Yi 
log (%) = Pi +Ei, 
Ti 


| . | — exp 1 exp Ei. (7.6) 
TL 2 


i 


ou encore, en prenant l’exponentielle, 


On peut estimer directement le modèle (7.5) par la méthode des moindres carrés ordinaires. Le Tableau 7.4 
montre que les deux coefficients sont significativement différents de zéro. 


TAB. 7.4 — Estimation de paramètre du modèle logarithmique 


Coefficients Estimations Std. Error statistique { Pr(> |t|) 
Constante -5.21913 0.09921 -b2.61 < 2e — 16 
log(x) 1.08139 0.01097 98.56 < 2e — 16 


On obtient donc le modèle estimé 
log(y;) = —5.21913 + 1.08139 log(x;) + é;, 


ou en écrivant sous la forme du modèle (7.6), on obtient 
(hr) — exp —5.21913 exp &; — 0.005412036 : exp és. 


DENSISS 


La Figure 7.7 montre que les résidus de la régression logarithmique sont homoscédastiques. 
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F1G. 7.7 — Résidus de la régression du modèle logarithmique classés par ordre croissant de population 
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7.8.3 Si la variance est inconnue 


Dans la plupart des cas, on ne dispose pas d’une variable auxiliaire proportionnelle à la variance. Il est 
également exclu d'estimer cette variance, car la matrice 


Gr. Où Ce M ( 
0 Ge ie! Ùe «6x 0 
F=ll0 0 o?, 0 
0 0 (à) O2 


dépend de n paramètres. Le nombre de paramètres à estimer serait donc de n + p et donc supérieur au 
nombre d’observations, ce qui est impossible. 

Cependant, quand aucune hypothèse ne peut être faite sur la forme de l’hétéroscédasticité, White propose 
d'estimer la matrice ® par 


e 0 0 0 
0 e2 0 0 

= 5 0 à. ol 7 
0 0 0 e2 


où les e; sont les résidus au moyen de la méthode des moindres carrés ordinaires. Notons que les e? sont des 
estimateurs biaisés de a?, mais on peut montrer que ce sont des estimateurs convergents. On obtient alors 
l’estimateur de White 


ne _ —1 _ 
CRE (xx) xX'Q y. (7.8) 


Exemple 7.6 Reprenons les données sur les cantons suisses. Nous pouvons estimer par les MCO le modèle 
sans constante : 
Revenu = 5 x Population + €, 


on obtient l’estimation MCO : 
Revenu = 49.450 x Population + €. 


Le Tableau 7.5 donne les résidus et les carrés des résidus. La Figure 7.8 montre le lien entre les carrés des 
résidus et la variable “population”. Ensuite, on utilise la méthode des moindres carrés généralisés, en utilisant 
la matrice ( définie en (7.7). On obtient alors l'estimation de White : 


Revenu — 49.1982 X Population + €. 
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Notons que si l’on considère que l’hétéroscédasticité est donnée par var(ex) = «20 
q q k 


les moindres carrés généralisés (MCG) donne 


Revenu = 45.343 x Population + £. 


2, alors l'estimation par 


TAB. 7.5 - Population des cantons suisses en milliers d'habitants, revenus des cantons, résidus de la régression 
et carrés des résidus 


Carrés des résidus par les MCO 


Canton Population Revenu résidus résidus? 
AppenzellRh.-Int 15 588 -153.75 23637.73 
Obwald 33 1151 -480.84 231207.56 
Uri 35 1468 -262.74 69032.25 
Glaris 38 1796 -83.09 6903.79 
Nidwald 39 1989 60.46 3655.57 
AppenzellRh.-Ext 53 2273 -347.83 120988.97 
Jura 69 2263  -1149.03 1320270.10 
Schaffhouse 73 3593 -16.83 283.21 
Zoug 101 7191 2196.58 4824960.09 
Schwytz 131 6235 -242.91 59006.32 
Neuchâtel 166 6645  -1563.65 2445007.73 
Grisons 186 7782  -1415.65 2004054.36 
Bâle-Ville 187 11978 2730.90 7457836.77 
Thurgovie 228 9639  -1635.53 2674971.92 
Fribourg 239 9055  -2763.48 7636827.02 
Soleure 246 10425  -1739.63 3026308.85 
Basel-Campagne 261 13415 508.63 258699.79 
Valais 278 9692  -4055.02 16443184.69 
Tessin 312 11181 -4247.31 18039641.13 
Lucerne 351 14319  -3037.85 9228524.18 
Genève 414 20763 290.82 84576.03 
Saint-Gall 453 19356  -3044.72 9270314.64 
Argovie 551 26655 -591.79 350216.39 
Vaud 626 30272 -683.52 467198.46 
Berne 947 38796  -8032.88 64527103.90 
Zurich 1229 72504 11730.31  137600055.86 


F1G. 7.8 — Données suisses, carrés des résidus par nombre d’habitants 
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7.9 L’autocorrélation des résidus 


7.10 Un exemple d’autocorrélation 


Le Tableau 7.6 contient les temperatures journalières du mois de janvier 2006 de la station de mesure 
d’Adelboden de Météossuisse. Ces données sont également présentées dans la Figure 7.9. qui montre direc- 
tement un phénomène bien connu. La température ne change en général pas de manière brusque d’un jour 
à l’autre. La température d’un jour particulier ressemble donc souvent à la température du jour précédent. 


TAB. 7.6 —- Temperatures journalière du mois de janvier 2006 


1 2 3 4 5 6 7 8 9 10 

0.6 1.5 -42 09 2.7 2.5 3.4 7.8 4.8 3.9 

11 12 13 14 15 16 17 18 19 20 

0.2 11 -13 -3 -0.2 15 1! 1.3 -4.6 1.6 

21 22 23 24 25 26 27 28 29 30 31 
0.9 -3.7 -5.4 -8.5 -11.1 -12 -13.3 -12.1 -13.2 -11.6 -6.9 


Si T4 représente la température au jour t et T}_ la température au jour précédent, la Figure 7.10 présente 
le nuage de points obtenu en croisant la température et la température du jour précédent. 


F1G. 7.9 — Temperatures journalière du mois de janvier 2006 
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On observe, en examinant la Figure 7.10, que les points semblent aligner le long d’une droite croissante. 
Pour prédire la température à un jour particulier, on pourrait dans un premier modèle simple utiliser la 
température du jours précédent. En utilisant un simple modèle linéaire, on obtient 


Ti = Pi + BaTs-1 + €. (7.9) 
L’estimation des paramètres par les moindres carrés ordinaires donne 
T} = —0.49659 + 0.87665 X Tr_1 + Er, 


et le R? est égal à 0.7564. 
Cependant un simple test de Student nous montre que le coefficient 5; n’est pas significativement différent 
de zéro. Il est donc plus judicieux d’estimer un modèle sans constante 


Te = OTr_1 +4. (7.10) 
L’estimation du paramètre par les moindres carrés ordinaires donne 


a rss 
B = EE — = 0.9055, 
t=2 Li-1 
ce qui donne 
T}, = 0.9055 x Ty_1 + &. 


Les modèles (7.9) et (7.10) où l’on tente d’expliquer une variable par ses valeurs passées s’appellent des 
modèles autorégressif. Ces modèles se justifient dans le traitement des séries temporelles, car généralement 
les valeurs des variables ne changent pas radicalement d’un temps à l’autre. Dans les séries temporelles, on 
utilisera souvent des modèles autorégressifs sur les termes d’erreur d’une régression pour prendre en compte 
cette “ressemblance”. 


7.10.1 La modélisation 


Quand les données sont issues d'observations temporelles, on peut soupçonner les termes d’erreur du 
modèle linéaire d’être autocorrélés. Le modèle est alors 


y=XB+Ee, 
avec E (€) = 0, var (€) = No’, et 

1 Pi P2  ‘° Pn-3 Pn-2 Pn-1 

Pi 1 P1 ‘°° Pn-4a Pn-3 Pn-2 

Pa Pi 1 -: Dn-5 Pn-4 Pn-3 

Q : | | 

Pn-3 Pn-4A Pn-5 °°: 1 Pi p2 
Pn-2 Pn-3 Pn-4 ‘Pi 1 Pi 
Pn-1 Pn-2 Pn-3 ‘'' P2 Pi 1 


Les coefficients —1 < p; < 1 sont appelés coefficients d’autocorrélation. Cependant ce modèle est trop 
complexe pour être estimé directement, car il faudrait estimer n — 1 coefficients d’autocorrélation, ce qui est 
impossible avec seulement n paramètres. On aura donc recours à des modèles plus simple comme les modèles 
autorégressifs d’ordre 1. 


7.10.2 Définition du processus autorégressif d’ordre un 


Le processus autorégressif d’ordre un est un cas simple de série statistique dont les termes d’erreur sont 
autocorrélés. Considérons la série temporelle des €; définie pour toute valeur à de Z, et régie par le modèle 
suivant : 

Ej = PE-1 + Uj,i € Z. 


\ 


où 
— les u; sont de moyennes nulles, homoscédastiques, de variance o? et non-corrélés, pour tout à € Z, 
— ll <1, 
— cov (£i-;, wi) = 0, si j est positif. 
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7.10.3 Exemples de processus autorégressifs 


Il est intéressant de générer des processus autorégressifs. Dans la Figure 7.11 une suite de variables 
aléatoires normales indépendantes de moyennes nulles et de variances égales à 1 ont été générées. Ce processus 
est appelé un bruit blanc gaussien. 


FIG. 7.11 — Bruit blanc : Suite de variables normales centrées réduites 
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Dans la Figure 7.12, on a généré un processus autoregressif avec p = 0.9. La valeur du processus au temps 
t est très similaire à la valeur temps précédent. Dans la Figure 7.13, on a généré un processus autoregressif 
avec p = 0.5. La valeur du processus au temps t est similaire à la valeur temps précédent, mais cette similarité 
est moins forte qu'avec p = 0.9. 


F1G. 7.12 — Processus autorégressif avec p = 0.9 
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F1G. 7.13 — Processus autorégressif avec p = 0.5 
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Il est également possible de générer des processus autorégressif avec une valeur négative pour p. Dans la 
Figure 7.14, on a généré un processus autoregressif avec p = —0.5. La valeur du processus n’a en général 
pas le même signe au temps t et au temps t — 1. Ensuite, dans la Figure 7.15, on a généré un processus 
autoregressif avec p = —0.9. La valeur du processus n’est presque jamais le même signe au temps { et au 
temps t — 1. 

Enfin, on à généré, dans la Figure 7.16 un processus avec p = 1. Ce processus est appelé une promenade 
aléatoire. Finalement, dans la Figure 7.17, on a généré un processus avec p = 1.01, qui n’est plus du 
tout stationnaire. À partir des deux dernières figures, on peut comprendre intuitivement l’importance de la 


93 


F1G. 7.14 — Processus autorégressif avec p = —0.5 
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F1G. 7.15 — Processus autorégressif avec p = —0.9 
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condition lp] < 1, qui sert, en quelque sorte, à ramener le processus aux alentours de zero, ce qui garantit la 
stationnarité. 


F1G. 7.16 — Promenade aléatoire : Processus autorégressif avec p = 1 
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F1G. 7.17 — Processus non stationnaire p = 1.01 
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7.10.4 Espérance et variance du processus autorégressif d’ordre 1 


Le caractère récursif de la définition de €; permet de réaliser le développement suivant : 


Ei 


On peut alors calculer l’espérance 


E(ei) 


PEi-1 + Ui 


Il 


P(PEi-2 + Ui-1) + Us 


2 
P'Ei-2 + Pui-1 + Wi 


Il 


= p°(pEi-3 + Ui-2) + Pui-1 + U; 


pEi-3 an p’ui-2 + Pui-1 + Ui 


j—1 
= DE; +S plu k, avec j > 0 
k=0 


Si lp] < 1, alors en faisant tendre j vers l’infini, on obtient 


PASS PE (es) = 0. 


On peut également calculer la variance : 


k=0 


j—1 
= p'ivar(e;_;) + ÿ pFvar (u;_x) 
k=0 


j—1 
= pvar(es;)+o8 D p?* 


k=0 
| 1 — p# 
2 ; 
= pvar(s_;) + ao, = 


Si |p| < 1, alors en faisant tendre j vers l’infini, on obtient 


var(£;) = 


j-1 
var Ce Es Du) , avec j > 0 


2 


Ou 


1 — p% 
Jim (oran (si) + 08 Ls }=; 


J—00 “1 — p2 
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— p? 


(7.11) 


Ensuite, on peut calculer l’autocovariance en repartant de l'expression (7.11) : 


j—1 
j k 
COV(Ei,Ei-;) —= cov Ce + ) p mués) 


k=0 
j—1 
—  COV (pei_j,e;;) + cov (ofui_p,€i-;) 
k=0 
j-1 
= pvar(e;_;) + Y p° cov (ui_x, Ei- j) 
——,— 
k=0 d 
= plo 
22 
© | 
== P —, pour tout j > 0. 
— P 
Enfin, on calcule l’autocorrélation : 
j_1 2 
COV(Ei, Ei- j PTT : 
corr(£i, €; i) = ( 4 Ci 5) _ = p?°u Zi, 
Vvar(e;)var(e:_;) Ve? er er 


La série temporelle €; est donc homoscédastique. En effet, sa variance ne dépend pas de 4. De plus, l’auto- 
corrélation entre £; et £; ne dépend que la différence entre à et 3. 


7.10.5 Processus sur un intervalle de temps fini 


En pratique, la série temporelle ne peut être observée que sur un intervalle de temps limité (de l'instant 
1 à l'instant n). Sur cet intervalle, la série est régie par le même modèle : 


Ej = PEi-1 + Ui, pour à =2,...,n. 


Il est cependant nécessaire de faire des hypothèses supplémentaires sur le “démarrage” de la série (sur €1). 
Les hypothèses deviennent : 

— les u; sont de moyennes nulles, homoscédastiques, de variance o? et non-corrélés, 

— lel <1, 

— E (e1) = 0, 

— var (ei) = 70%; 

— E(aiu;) = 0, pour i=2,...,n. 

On constate à nouveau que E(e;) = 0, et que 


E —  PEi-1 + 
= P(pE;-2 + Ui-1) + wi 
= péi-o + pui + U 
= pe (pEi-3 + Ui-2) + pui-1 + U 
= pEi-3 FT p’ui-2 + Pui-1 + Ui 


j—1 
“ k Lie 
= pe-j+ > pur, <i 
k=0 
i—2 
= pe +S p'ui-p, 
k=—0 
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ce qui permet de calculer la variance 


i-2 
var(e;) — var fr + ÿ pus) 


k=0 
2 i-2 
= pin) _Tu : S_ pho? 
l—p k=0 
1 i-2 
{a —— D 02 
Fe k=0 
= 2(i-1) 1 1—PU DT, 
TT P 1 . p? 1 _ p? Ou 
nus 
ES 
et les covariances se calculent de la même manière 
2 5 
coV (Ei,Ei-j) = enr pour tout j > 0. 


On peut donc construire la matrice variance-covariance du vecteur € = (£1.. 


. Ei- 
var(E) = 02, 
où 
1 Pp p? p?—$ n—2 P 1 
P 1 P 7 LL n—3 P —2 
: de P 1 p?—$ Lie P 3 
Q — : : 
l—p° - —5 2 
p p Lu, l P P 
p P PET RES || D 1 P 
pri pr? pr ie p? P 1 
Cette matrice est inversible et l’on peut vérifier par une simple multiplication que son inverse est : 
1 —p 0 ce. 0 (0) (0) 
—p 1l+p? —-p 0 0 0 
(0) —p 1+p? (0) (0) (0) 
Q=1 = | : : ; > : : | 
0 0 0 . 1+p2  —p 0 
0 0 0 “Me. ep LED? —ÿ 
0 0 (0) ce. 0 —p 1 


(7.12) 


Le processus autorégressif d’ordre un ne dépend que d’un seul paramètre p. Ce paramètre peut être 


estimé par la méthode des moindres carrés qui consiste à minimiser la quantité : 


Q(e) = D (ei pe; 1)". 
i=2 
On obtient : ” 
Di=o EiEi-1 


» Eÿ 1 | 


p = 


Exemple 7.7 Avec les séries de températures données dans le Tableau 7.6, on obtient 


Din LG 9055. 
Picot À 


p = 
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7.10.6 Le test de Durbin-Watson 


Considérons un modèle du type 
y=XB+Ee, 
où var(e;) = o?, et cov(£;,€;) = p;_;o2. On peut estimer (3 au moyen de l’estimateur des moindres carrés 
ordinaires {3 moo: € qui ne procure pas un estimateur optimal, mais cet estimateur est sans biais. On peu 
dès lors calculer les résidus sn 
e= y -XfB. 


Le test de Durbin-Watson consiste à tester l'hypothèse nulle 
Ho : P1 — 0, 


contre l’hypothèse alternative 
H; : P1 À 0. 


Ce test utilise la statistique de test de Durbin-Watson 


pw = Dita) Lo péoter on _r 
Di & Din 
où e; est le résidu estimé au moyen d’une régression par les moindres carrés ordinaires. 
On constate que : 
— quand p est proche de 0, la statistique de Durbin-Watson est proche de 2, 
— quand p est proche de 1, la statistique de Durbin-Watson est proche de 0, 
— quand p est proche de -1, la statistique de Durbin-Watson est proche de 4. 
La règle de décision pour un test de niveau a consiste à rejeter H, si 


DW &#[A4,,4 — A,], 


où À,, est la valeur critique. Durbin et Watson ont cependant montré que À,, dépend de la matrice X. Pour 
chaque matrice X, les valeurs critiques sont différentes. Durbin et Watson ont calculé des tables statistiques 
qui encadrent les valeurs À, pour toutes valeurs de X, ces bornes sont notées dz et du. 

En pratique, la règle de décision est donc 

— on rejette H, si DW < dy ou si DW > 4— dy, 

— on ne rejette pas H6 si DW € [dy,4 — dy], 

— on ne peut pas conclure au sujet de H6 si DW € [dr, du] ou si DW € [4 — dy,4 — dr]. 
Cette règle de décision est illustrée dans la Figure 7.18 


F1G. 7.18 — Règle de décision pour le test de Durbin-Watson 


Ni RHo Ni RHo 
| RH Fe RH | RH ik RH | RH | 
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0 dr du 2 4—- dy 4—-dr 4 


Exemple 7.8 Le tableau 7.7 contient la consommation de boeuf et le prix du boeuf aux Etats-Unis de 1925 
à 1941. On a fait la régression de la consommation par le prix et on a obtenu 


Consommation = 85.239 — 0.466 X Prix + e;. 


Les résidus ont également été ajoutés dans le tableau. Les Figures 7.19 et 7.19 présentent respectivement 
les graphiques des résidus soit en fonction des années soit en fonction du résidu de l’année précédente. 
L’autocorrélation apparaît clairement. On obtient : 
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TAB. 7.7 —- Consommation et prix du boeuf aux Etats-Unis 


Année Prix du Consommation Résidus 
Année boeuf de boeuf Consommation par prix 
1925 59.7 58.6 1.15471 
1926 59.7 59.4 1.95471 
1927 63 53.7 -2.20896 
1928 71 48.1 -4.08451 
1929 71 49 -8.18451 
1930 74.2 48.2 -2.49473 
1931 72.1 47.9 -3.7724 
1932 79 46 -2.46006 
1933 73.1 50.8 -0.40684 
1934 70.2 55.2 2.64305 
1935 82.2 52.2 5.22972 
1936 68.4 57.3 3.90505 
1937 73 54.4 3.1466 
1938 70.2 53.6 1.04305 
1939 67.8 53.9 0.22571 
1940 63.4 54.2 -1.52274 
1941 56 60 0.83215 


FiG. 7.19 — Résidus selon les années 
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La statistique de Durbin-Watson vaut 


DW & 2(1 — 5) = 0.4905496. 
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En pratique la règle de décision est 

— on rejette H6 si DW < dy ou si DW > 4-— dy, 

— on ne rejette pas Ho si DW € [du,4 — dy], 

— on ne peut pas conclure au sujet de H6 si DW € [dr, du] ou si DW € [4 — du,4 — dr]. 
Avec une seule variable explicative dans le modèle et n — 17, on obtient dans la table dy, — 1.13 et d,, — 1.38. 
Donc on rejette H, car DW = 0.4905496 < dy = 1.18. 


7.11 Estimation avec des termes d’erreur autocorrélés 


7.11.1 Le modèle et estimation par les MCG 
Méthode 1 
On suppose que le modèle linéaire s'écrit 
y=XB+e, 


et le vecteur € des €; est un processus autorégressif d’ordre 1. 
Si p était connu, on pourrait donc directement estimer {3 par les moindres carrés généralisés : 


Buce = (AUX) x y, (7.13) 
où { est la matrice variance-covariance donnée en (7.12). 


Méthode 2 


Pour se ramener à la méthode des moindres carrés ordinaires, on peut vérifier par simple multiplication 
que 71 = M'M, où 


V1-—-p2 0 0: 0 O0 O0 
—p 1 0 0 O0 
0 —p 1: 0 O0 O0 
M = ni 
0 0 0 1 0 O0 
0 0 0 —p 1 O0 
0 0 0 0 —p 1 
De plus, 
1/1 _— pe 
—PE£1 + €2 
ME = (7.14) 
—PEi-1 T Ei 
—PEn-1 T En 
En remplaçant, dans (7.14) les €; par pe;_1 + u;, on obtient 
\/1 pe 
u2 
ME = : | (7.15) 
dr 


On a donc E(ME) = 0, et var(ME) = Ia. Le modèle 


My = MX + ME, 
SZ 


u 
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est donc un modèle linéaire général avec des termes d’erreur homoscédastiques et non-corrélés. L’estimateur 
linéaire optimal est alors l’estimateur des moindres carrés ordinaires qui s'écrit : 


Bco = (X' M'MX) ‘X'M'My, (7.16) 


et qui est le même que l’estimateur par les moindres carrés généralisés. 


7.11.2 Cas où p est inconnu 


En pratique, p est toujours inconnu. Cochrane et Orcutt suggèrent d'utiliser une procédure itérative. On 
commence d’abord par effectuer une régression classique par les MCO. En obtient ainsi des résidus e, ce qui 
permet d’obtenir une première estimation approximative de p 


re De CiCi—1 
«SE DEC 
Ensuite, on répète les deux opérations suivantes. 

1. Connaissant une approximation de p, on peut estimer le coefficient de régression au moyen de l’ex- 
pression (7.13) ou (7.16). On obtient ainsi une estimation de (3 qui permet d'obtenir une nouvelle 
estimation les résidus. 

2: À partir de ces nouveaux résidus, on recalcule une estimation de p. 

En répétant ces deux opérations plusieurs fois, on aboutit à une solution, qui n’est pas nécessairement 
optimale. 

Il est également possible d’obtenir une solution du maximum de vraisemblance, en supposant que les u; 

ont une distribution normale. Cette méthode, plus complexe, permet d’estimer en même temps (3 et p. 


Exercices 


Exercice 7.1 Soit le modèle à trois variables explicatives : 


Ye = Go + AiT14 + AoTar + A3T3t + Et 


Nous disposons des observations annuelles de 1971 à 1990 : 


Année Ut T1 T42 T13 
1971 87.4 98.6 99.1 108.5 
1972 97.6 101.2 99.1 110.1 
1973 96.7 102.4 98.9 110.4 
1974 98.2 100.9 110.8 104.3 
1975 99.8 102.3 108.2 107.2 
1976 100.5 101.5 105.6 105.8 
1977 103.2 101.6 109.8 107.8 
1978 107.8 101.6 108.7 103.4 
1979 96.6 99.8 100.6 102.7 
1980 88.9 100.3 81.0 104.1 
1981 75.1 97.6 68.6 99.2 
1982 76.9 97.2 70.9 99.7 
1983 84.6 97.3 81.4 102.0 
1984 90.6 96.0 102.3 94.3 
1985 103.1 99.2 105.0 97.7 
1986 105.1 100.3 110.5 101.1 
1987 96.4 100.3 92.5 102.3 
1988 104.4 104.1 89.3 104.4 
1989 110.7 105.3 93.0 108.5 
1990 127.1 107.6 106.6 111.3 


e but de cet exercice est de déceler une éventuelle autocorrélation d’ordre es erreurs. 
Le but de cet t de décel tuell t lat d'ordre 1 d 


Pour ce faire : 
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1. estimez les coefficients du modèle par moindres carrés ordinaires, 


2. calculez la statistique de Durbin-Watson, effectuez le test et commentez le résultat. 


Exercice 7.2 Reprenez les données et le modèle de l’exercice précédent et essayez de corriger les effets liés 
à l’autocorrélation des erreurs. Pour cela, il y a plusieurs techniques possibles. 
En voici deux : 


1. estimez le p à partir de la statistique de Durbin-Watson et avec cet estimateur, transformez les données 
pour obtenir un modèle qui satisfasse aux hypothèses des moindres carrés ordinaires, 


2. estimez le modèle en spécifiant au logiciel qu’il y a de l’autocorrélation d’ordre 1. 


Commentez les résultats obtenus. 


Remarque : Eviews estimera le p par maximum de vraisemblance et l’utilisera pour estimer le modèle par 
moindres carrés généralisés. 


Exercice 7.3 Le but de cet exercice est de gagner de l’expérience dans les méthodes pour tester la présence 
d’auto-corrélation de 1er ordre dans les modèles contenant des variables endogènes retardées comme régresseurs. 
Vous utiliserez les statistiques m et h de Durbin et vous ferez des régressions utilisant les MCO et la tech- 
nique de Hildreth-Lu. Les données nécessaires sont sur le site de l’Université de Neuchâtel division ecopo. 
Le nom du fichier est Kopckel. Ce sont des données trimestrielles allant de 1952 : 1 à 1986 : 4. Pour cet 
exercice, vous aurez uniquement besoin des séries IE (investissement en équipement), IS (Investissement en 
construction) et Y (PIB). 


1. En utilisant les MCO, estimez, pour les deux types d’investissements, l’équation suivante : 
TI; = LAY+ Qu: (1 qu O)UAYE-1 + (1 GR À)T-1 + €4 


À partir de ces résultats, donnez les estimations implicites de y le coefficient capital/output, 6 le 
taux de dépréciation du capital et À le coefficient d'ajustement. Est-ce que le taux de dépréciation Ô 
correspond bien au 0.15 pour les équipements et 0.05 pour la construction obtenue par Kopcke ? En 
utilisant la statistique de Durbin-Watson donnée par Eviews, testez avec & = 0.05 l'hypothèse nulle de 
l’absence d’auto-corrélation. Puisque DW est approximativement égale à 2(1 — p), calculez l'estimation 
implicite de p. Pourquoi est-ce que cette estimation peut être biaisé vers zéro ? 


2. James Durbin (1970) développa deux statistiques pour ce contexte qui sont strictement valide asympto- 
tiquement mais qui sont aussi fréquemment utilisées en petits échantillons. Il y a la statistique suivante, 


le h de Durbin : 
T 
h = Py | —— 
ai 1 — T(varB3) 


où p est l'estimation de p faite au premier point, T est la taille de l'échantillon (ici 124) et varfs est 
l’estimation faite au premier point de la variance du coefficient lié à la variable dépendante retardée. À 
est asymptotiquement normalement distribuée (centrée réduite). Calculez le h, et en utilisant la table 
de la normale centrée réduite, testez avec à = 0.05 l'hypothèse nulle h — 0 (et donc p = 0). Dans 
certains cas, si T'(varB3) > 1, la racine est négative. Dans ce cas, cette statistique est inutilisable. On 
utilisera donc plutôt la statistique m de Durbin. Plus précisément, du premier point, récupérez les 
124 résidus. Ensuite, estimez par MCO l'équation suivante (avec les même variables explicatives que 
ci-dessus et avec en plus les résidus retardés d’une période) : 


et = C+ BiYi + B2Ye-1 + Bali-1 + p'es-1 + 
sur la période d'observation 1952 : 2-1986 : 4. Donnez l’estimation de p dans ce cas (p*) et testez la 


nullité de p* avec a = 0.05. 


102 


3. 


4. 


Maintenant, estimez l’équation du premier point en spécifiant de l’auto-corrélation de premier ordre. 
D'une part, en utilisant la technique intégrée dans le logiciel Eviews et d’autre part, en utilisant la 
technique de Hildreth-Lu. Cette technique consiste à “balayer” tout le spectre possible de p avec dans 
un premier temps un pas de 0.05. Sur la base des résultats initiaux, affinez votre balayage avec un pas 
de 0.01. Le critère pour la sélection du p dans ce cas est la minimisation de la somme des carrés des 
résidus (SSR) des équations transformées qui sont estimées par MCO (voir exercice 5.2). 


Comparez tous vos résultats et faites un commentaire. 


Exercice 7.4 Estimez de manière optimale bo et b du modèle 


Ut = bot + bit? + €4 


où : Les #4 sont hétéroscédastiques avec &; + N(0, ot?) 


TAB. 7.8 — Données selon le temps et le carré du temps 


y t t 
7 1 1 
8 2 4 
10 3 9 
12 4 16 
15 5 25 


(Indication : Trouvez l'astuce!) 


Exercice 7.5 Exercice sur l’hétéroscédasticité à faire avec Eviews. 
On suppose que l’analyse théorique permet de conclure au bien-fondé d’une estimation de la relation suivante 
entre les dépenses publiques pour l’enseignement et le revenu : 


Dépenses, = a + b x Revenu: 


La relation inverse (effet des dépenses d’enseignement sur le revenu) et les autres facteurs influençant la 
dépense sont ainsi ignorés. On utilise les données du tableau ci-après se référant aux cantons suisses et pour 
l’année 1991 (millions de CHF). 


1. 


Transférez les données ci-dessous sur un fichier Excel et, à partir de cet emplacement, transférez-les 
sur Eviews. 

Estimer par MCO ladite relation et commenter le résultat obtenu. 

Vérifier si le calcul ci-dessus est affecté par le phénomène d’hétéroscédasticité et cela à l’aide : 

i) du graphique des résidus en rapport avec la variable explicative ; 

ii) du test de White; 

Commenter les résultats obtenus. 

Dans le but, le cas échéant, d’éviter l’hétéroscédasticité et aussi afin d'améliorer l’intérêt économique 
des résultats, effectuez l'estimation en logarithmes de la fonction ci-dessus. Donnez intuitivement la 
raison de prendre les logarithmes afin d'éviter l’hétéroscédasticité. Commentez les résultats en utilisant 
le test de White également. 


Reprenez les données originales et estimer le modèle à l’aide des moindres carrés pondérés. Pour cela 
dans la boîte Equation Specification, allez dans Options et sélectionnez Heteroscedasticity en haut 
à gauche. 

Commentez le résultat en utilisant le test de White. 


Indication : Eviews effectue automatiquement le test de White. Pour cela, il faut changer de vue lorsque 
le résultat de la régression est affiché sur l’écran. Il suffit de clicker sur 


View/ResidualTest/White Heteroscedasticity(crossterms). 
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TAB. 7.9 - Dépenses d’enseignement et revenus selon les cantons 


Cantons Enseignement Revenu 
Zurich 2252 65574 
Bern 1937 36886 
Luzern 399 11719 
Uri A4 1196 
Schwyz 101 4194 
Obwalden 21 984 
Nidwalden 22 1400 
Glarus A4 1749 
Zug 116 6037 
Fribourg 438 7859 
Solothurn 256 8857 
Bale-ville 541 11655 
Bale-campagne 349 10005 
Schaffouse FT 2703 
Appenzell A. 41 1869 
Appenzell I. 12 456 
St-Gallen 406 15857 
Grison 178 7058 
Aarau 740 20318 
Thurgovie 190 7125 
Tessin 444 9922 
Vaud 1319 24103 
Valais 434 8068 
Neuchâtel 280 5834 
Genève 1464 22034 
Jura 117 2128 


Exercice 7.6 Exercice sur la saisonnalité par variables muettes. 

Une entreprise cherche à appréhender une relation entre ses ventes et ses dépenses publicitaires. Le directeur 
marketing dispose des données sur les ventes et les dépenses publicitaires entre 1988 et 1992 se trouvant 
ci-dessous. 


1. Vous êtes son conseiller et vous lui recommandez de faire la régression classique : 
VENTES; = a+bx PUB: + Et 


Commentez les résultats obtenus. 


2. Tracer le graphique comprenant la séries des ventes et celle de la publicité du Tableau 7.10. Que 
pouvez-vous en conclure ? 


3. Spécifier et estimer le modèle adéquat. 
4. Tracer les ventes réalisées et les ventes estimées par les régressions respectives (un graphe pour chaque 
régression). 


5. Expliquez la fonction @seas(n) de Eviews et mettez-la en oeuvre ici. 


Indication : Eviews calcule automatiquement tous ces graphes. Pour afficher des séries, il faut sélectionner les 
séries voulues, allez dans View/Show. Puis, lorsque le groupe contenant les séries apparaît, retournez dans 
View/Graph/line. Pour afficher graphiquement les résultats de la régression, c’est plus simple. Lorsque le 
résultat de la régression apparaît, allez dans View/Actual, Fitted.../Actual, Fitted, Graph. 
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TAB. 7.10 — Ventes et dépenses publicitaires 


Années Ti To T3 TA 
1988 Ventes 164 198 85 179 
Pub. 34 36 32 29 

1989 Ventes 168 201 98 197 
Pub. 45 67 76 75 

1990 Ventes 197 209 100 216 
Pub. 75 78 72 75 

1991 Ventes 223 245 119 260 
Pub. 78 81 84 83 

1992 Ventes 298 309 124 267 
Pub. 89 82 81 83 


Exercice 7.7 Exercice sur les séries temporelles. 
Soient les processus : 


1. X4 = pXy-1 + Us où le] < 1, teZ 
C’est un processus autorégressif d'ordre 1 symbolisé par le terme AR(1). 


2. Vs = Our_1 + w où lo] < 1, teZ 
C’est un processus à moyenne mobile d'ordre 1 symbolisé par le terme MA(1). 


Partie théorique : 
Calculez d’une part : 


1. var(X;) 

2. cov(X3, X3-_;) 

3. corr(X+, X4-_ 5) 
et d’autre part : 

1. var(Ÿ}) 

2. cov(Y.Yi-;) 

3. corr(Ys, Ÿi-;) 


pour j =1,...,00. 


Partie pratique : 
Générez sur Eviews des w  N(0,1) et avec, générez une réalisation de X, et de Y4. Ensuite, estimez (vi- 
sualisez) la fonction d’autocorrélation grâce au corrélogramme. 
Utilisez les valeurs suivantes pour p et © : 
p=0.8  p=0.3 
p=—-0.8 p—=—-0.3 
p=08 D—=03 
p=—-08 = -03 


Comparez avec les calculs qui ont été faits dans la partie théorique. 


Exercice 7.8 On considère la relation suivante entre l’épargne du ménage E; et son revenu À; : 
E; = BR;+e;, aveci—1l,...,n. 
où €; est un terme d'erreur vérifiant 


— E(e;) = 0, pour tout i, 
— E(e;e;) =0, pour tout i # j, 
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On considère en outre 3 modèles de variances sur les termes d’erreur €; : 
— Modèle 1 : E(£?) = 0?, pour tout i, 
— Modèle 2 : E(£?) = o?R;, pour tout i, 
— Modèle 3 : E(£?) = o2R?, pour tout i. 
1. Donnez une signification du modèle et interpréter le paramètre /. 
2. Donnez les meilleurs estimateurs de G sous ces trois modèles. Commentez les résultats obtenus. 


3. Que vaut la variance l’estimateur des MCG et des MCO sous le modèle 3 (E(£?) = a? R?) ? Comparez 
sa variance avec celle de l’estimateur par les MCG. Le résultat est-il conforme au théorème de Gauss- 
Markov ? 


Exercice 7.9 On considère le modèle linéaire sans constante suivant : 
yi = Prite:;, avec i=1l,...n et €; N(0,0°). (7.17) 


Les résidus sont non-corrélés. 


1. Recherche du meilleur estimateur de 8 : 


(a) On pose f3* — ÿ y; un estimateur linéaire de B; les c; sont des constantes. Sous quelles condi- 
i=1 
tions B* est-il sans biais ? 


(b) Donner lexpression de la variance de /5*. 


(c) Le problème est donc de déterminer les c; tels que la variance de B* soit minimale. Écrire le 
programme d'optimisation sous contrainte et déterminer l’expression de G*. 


2. Estimation de l’équation 7.17 par MCO : déterminer B l’estimateur de 5 par moindre carrés ordinaires. 
3. Estimation par la méthode du maximum de vraisemblance : 

(a) Écrire la fonction de vraisemblance de l'échantillon (y1,...,Yn). 

(b) Estimer 8 et a? par la méthode du maximum de vraisemblance. 


4. Montrer que 0%, est biaisé et calculer son biais. 


Exercice 7.10 (d’après J. Krishnakumar) Une entreprise possède n points de vente. Elle enregistre pour 
le mois de mars 2001 les ventes de chaque magasin. Soit y1; les ventes du magasin 4 au mois de mars. On 
postule 

Yli = a+Eu,i=1l,...,n. 


En avril, l’entreprise fait une grosse campagne de publicité à la télévision. A la fin avril, elle enregistre, dans 
le même ordre, les ventes des n magasins notées y2;. On postule 


Yai = a+b+Ex,i=1l,...,n. 


Le paramètre a représente la vente moyenne avant la campagne et b mesure l'effet de la campagne sur la 
vente moyenne. Les hypothèses sont 


E(eri) E(£s;) = 0, pour tout i = 1,...,n, 

E(e?,) = E(e,) = 0°, pour tout à =1,...,n, 
E(euex) — po?, pour tout i—1,...,n, 
Efesiet;) —= 0, pourtouti#j=1,...,n, s,t=—1,2. 


1. Écrire ce modèle sous la forme 
y=279+E, 


où y = (a fB). Précisez la notation utilisée. 
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Nu RE NN 


Donnez les estimateurs de & et f par les moindres carrés ordinaires et par les mindres carrés généralisés. 
Comparez les deux méthodes d’estimation. 

En déduire les estimateurs de a et b. 

Donner la matrice variance-covariance des estimateurs obtenus. 

Proposez des estimateurs pour a? et p. 


Construisez un test pour tester l'hypothèse nulle b = 0. Traitez les cas p connu et p inconnu séparément, 
en supposant les termes d’erreur normaux. 
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Chapitre 8 


Variables instrumentales et équations 
simultanées 


8.1 Erreurs sur la variable explicative 


Considérons le modèle linéaire général 
y=XB+Ee, 
avec E(E) = 0, et var(£) = Io?. En économie, il n’est pas toujours possible de faire l'hypothèse que la 
matrice X est constante. Dans certains cas, on doit admettre que la matrice X est aléatoire et est corrélée 


avec le vecteur des résidus €. 
L’estimateur des moindre carrés est alors biaisé. En effet, 


E(B)=-E{(x'x) x y} =E{(xX'x) x" (xB+e€)} - B+E {x Xe}. 
20 


Si on suppose que 
1 
NN Se (8.1) 
n 


et que 
1 
X'E Rs (8.2) 


alors 


rl 
= plim {x x (XB + )} 


N— 00 


= B+ plim {(X'xX) 7 x'e} 


n— 00 


1 “ 
= BP+ plim {(2xx) ixe 
n— 00 nm n 


= P+S;xExe. 


L’estimateur n’est donc pas convergent. 
8.2 Variables instrumentales 


Pour obtenir un estimateur convergent, on utilise q (avec q > p) autres variables dont la matrice des 
valeurs prises est notée Z et est de dimension n x q. Ces variables sont appelées variables instrumentales. Si 
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en outre on suppose que la matrice Z n’est pas aléatoire, les variables instrumentales sont non-corrélées au 
vecteur de résidus €, et donc 
1 
(re) 0. (8.3) 
n 
En prémultipliant les deux membres du modèle linéaire par Z’, on obtient 
Z'y = Z'XG + 7€. (8.4) 
Comme Z n’est pas aléatoire, on a 


var(Z'E) = Z'var(e)Z = Z'o?7. 


L'équation (8.4) peut être vue comme un nouveau modèle linéaire généralisé. On pourrait estimer {3 en 
utilisant la méthode des moindres carrés généralisés, ce qui donne 


By, = {X'Z(Z'o22) ZX) X/Z(Z'022) \Z'y 

= {XZ(72)7Z/X} "X'Z(Z/2) Z'y 

= (X'PzX) X'Pzy. 
où PZ est une matrice idempotente, qui projette sur le sous-espace engendré par les colonnes de Z : 

P;=2Z(ZZ) 7. 
Cet estimateur peut également s’écrire : 
By = {X'Z(77) ZX} X'Z(7/2) 17'y 
= {XZ(77) 7x} XZ(72) 17 (XB+e) 

B+{xX'Z(Z72) 7 17/X} "X'Z(Z/2) 17e, 

1 


| —1 
B+ (xs (zz) lzxl lxz (az) 17e. 
nm nm nm nm 


Sous l'hypothèse (8.3) et en supposant que 


1 
VDS 
nm 
et 1 
VAR RE 
nm 
on à È ” 
Bvr — B+{Exz2z; xs) Zxz27, x 0 = BG. (8.5) 


L’estimateur par les variables instrumentales est donc convergent. 


8.3 Doubles moindres carrés 


La méthode des variables instrumentales peut aussi être présentée comme une double application de la 
méthode des moindres carrés. À la première étape, on projette les variables explicatives sur le sous-espace 


engendré par les variables instrumentales : ue 
X = P,X, 


où Pz =Z(Z'Z) !7/. 
Ensuite, on utilise X comme variable explicative pour faire la régression sur y, ce qui donne le coefficient 
de régression 


= SS —1 S, 
Br = [RR} ÀR'y 
= {X'P;X}  X'Pzy. 
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8.4 Cas où q=p 


Un cas particulier est intéressant quand q = p et que la matrice Z est de plein rang. La matrice Z’X est 
alors inversible. 


By, = {XZ(77) ZX} X7/(7/2) 1Z'y 
= (ZX) Z'Z(X'Z) IX'Z(Z'Z) Z'y 
(Z'X) 'Z'y. 


L’estimateur de 5; , est alors beaucoup plus simple. 


8.5 Application à l’économie 


8.5.1 Un exemple : le modèle keynesien 


Considérons le modèle keynesien élémentaire dans lequel interviennent trois variables : 
— la consommation ©, 
— le revenu national Y, 
— l'investissement 1. 
Le modèle est régit par deux équations. 
— La première équation est une équation de consommation, régie par une relation linéaire stochastique : 


CG =a+bY; + ui, 


où les u; sont des variables aléatoires non-corrélées homoscédastiques de variance 92. Le paramètre 
b est la propension marginale à consommer. Dans la théorie keynesienne, 0 < b < 1, dans la théorie 
monétariste b = 1. 

— La seconde équation non-stochastique, c’est une identité comptable 


Y=Ci+l. (8.6) 


Il n’y à pas de résidu, car elle exprime une relation comptable. 
Le modèle économétrique dans sa forme structurelle est donc : 


Une variable est dite exogène si elle est non-corrélée aux résidus. Une variable est endogène si elle est 
corrélée aux résidus. Il ne faut pas confondre variables exogènes et variables explicatives. La variable Y; est 
explicative pour l’équation (8.6), mais nous allons voir qu’elle ne peut pas être exogène. La variable J; est 
supposée exogène. 

Il est possible de résoudre ce système d’équation. Après quelques calculs, on obtient la forme dite réduite 
du modèle, c’est-à-dire que les variables endogènes sont exprimées seulement en fonction des variables 
exogènes : 


a 1 Ui 

1-0 

La seconde équation nous montre que Ÿ; est endogène, car cette variable est forcément corrélée avec les 
résidus u;. Il est possible de calculer la covariance : 


CE _  Ui 0 
cou) = cov (ES T 1-5" T ru) = 


Avec la première équation du modèle structurel donné en (8.7), on se trouve donc dans le problème 
embarrassant où la variable explicative Y; (qui est endogène) est corrélée aux résidus. 
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8.5.2 Estimation par la méthode des moindres carrés indirects 


Il est possible estimer les paramètres de la forme réduite par la méthode des moindres. En effet, en posant 


a b a 1 
QE Te 
on obtient ” 
do re 
= rs tm +. 


Pour ces deux équations, la variable explicative est exogène. On peut donc estimer les paramètres de la forme 
réduite par les moindres carrés ordinaires : 


où 


Remarquons au passage que, comme Ÿ; = C; + 1;, 


2 Di PE=T 
Di 
Dit -C+I-1)(i-T) 
Das = T}? 
Dim (Ci — CN =) | Din — 1) —T) 
Dent + Ses 


= Fo +li. 


De plus 


Rs =Y -Rl=C+I-(R+1)1=C-RI =. 
Maintenant que l’on dispose d’estimateurs sans biais de T1, T2, 73 et m4, et que l’on sait en outre que 
T 
b= —+, 
Ta 
on pourrait estimer b, par : . 
572 _ Dim 1-0) 
Ma Dri-DM-T) 
Cet estimateur est biaisé, car le ratio deux estimateurs sans biais ne fournit pas un estimateur sans biais. 
Ensuite, on peut estimer a par 


(8.8) 


ce qui donne le même estimateur, car F1 = T3. 


111 


8.5.3 Estimation par la méthode des variables instrumentales 


Nous allons montrer que l’estimateur (8.8) n’est autre que l’estimateur par les variables instrumentales 
où 1; est la variable instrumentale. Aïnsi, l’estimateur est biaisé, mais comme on l’a vu ci-dessus il est 
convergent. Pour utiliser les variables instrumentales, on considère d’abord le modèle de régression de la 
variable explicative par la variable instrumentale, qu’on note 


Y,=c+dl;+Ee;, 


où les €; sont non-corrélés et identiquement distribués. On estime les paramètres c et d par les moindres 
carrés ordinaires, ce qui donne 


et ES 
=Y dl. 


On peut alors construire les valeurs ajustées de Y en 7, qui valent 
Y* = ê+dl:. 


Ensuite, on estime le coefficient de regression b de la première équation de la forme structurelle du modèle, 


mais on utilise comme variable explicative Y* à la place de Y; 


C=a+bY} +us;. 
On obtient l’estimateur par les variables instrumentales : 


= rat = PG- 0) 
DEC 


On peut simplifier cette expression. En effet, comme 


Y*—Y =è+ dl, — (è+ d1) = d(I; -T), 

on obtient 

. — Didi = Ci -C) 

jé Di (HT) 
St O2) 
Med 

Di — ne L Di Ci nu IC = C) 

Dati 4) Dit 


ce qui est le même estimateur que par la méthode des moindres carrés indirects (8.8). 
Exemples d'équations simultanées 


Exemple 8.1 Soit le modèle d'équilibre où q° = est la quantité offerte, g{ — la quantité demandée, p — le 
prix du bien, et z= le climat 


Equation d'offre : 
qe = a + bpr + CA + Us 


Equation de demande : 
d=a +bpm+u 
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Hypothèse d'équilibre : 


La forme structurelle est donc la suivante : 


a = a+ bp + ca + ui 
qe = à + b'ps + ve 


où p4 et q sont endogènes et z, exogène. 


Comme 
a + bpr + ca + 4 = à! + bp + vw, 
on obtient , 
a— a CZ4 Ut — VE 
= : 8.9 
Pope ob dE 8) 
De plus, 
d'a — bqr = L'(a + bps + ca + ue) — b(a! + b'ps +0) = ab — ab + b'ez + buy — bus, 
ce qui donne 
b' — ab 0 bus — 
__ a a " b'c Ut bus (8.10) 


b—b b'—b b'—b 


Les équation (8.9) et (8.10) permettent d'écrire la forme réduite : 


Qi — Ti FT A2 T Et 
Di — A3 T T4 TT, 


avec 


ab! + a'b cb! a— «a c 
Feu Per pee et 
buy — bu, Ut — Vt 
ETS gap MT mai 


Il est possible d'estimer 71,72,73 et 74 (paramètres réduits) par les moindres carrés ordinaires, mais il y a 
un problème d'identification pour remonter aux paramètres structurels (a, b, c, a’,b'). En effet, le nombre de 
paramètres structurels (5) est plus grand que le nombre de paramètres réduits (4). Toutefois, les paramètres 
a’ et b’ sont identifiables, en effet : 


T2 LEE _y 


T4 


b' D LU 
ma — Us = TS vf F)=« 


alors que les paramètres à, b,c ne sont pas identifiables. 


Exemple 8.2 Modèle d'équilibre avec une variable supplémentaire 


Avec : q? = quantité offerte ; qgŸ — quantité demandée : p — prix du bien ; z— climat et : 


x = revenu des ménages 


(9 


Equation d'offre : 
qe = a+ bpr + Ca + ue 
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Equation de demande : 


gd = à + bp + dre + 


Hypothèse d'équilibre : 


Forme structurelle : 
qe = a + bp + Cu + U 
qu = à + bp + ds + v 


Avec p, et q comme variables endogènes et z, et x; comme variable exogène. 


Forme réduite : 


Avec 
_a—# c 
ÉD ni 
—d ab! — ab b'e —bd 
es = 


Nous avons donc 6 paramètres dans la forme réduite et 6 paramètres dans la forme structurelle. C’est une 
situation favorable à l'identification, mais cela ne la garanti pas. Dans notre cas, il n’y à pas de problème 
d'identification : 


Ts _y 
T2 
T6 _} 
T3 
r2(b' — b) — C 
—73(b — b) = d 


Ta — Dm = a 


Ta — DT = à 


Le modèle est donc identifiable à la suite de l’ajout d’un paramètre exogène dans la forme structurelle 
qui se traduit par deux paramètres en plus dans la forme réduite. 


Exemple 8.3 


Equation d'offre : 
qe = a + bps + 
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Equation de demande : 
gd = a! + bp + cr + d'x + ve 


Hypothèse d'équilibre : 
Œ = d — dt 


Forme structurelle : 


! (A ! [A 
qi = à + bp + Carr + d'z +v 


{ qu = a + bp + wi 


Avec p; et q comme variables endogènes et z, et x; comme variable exogène. 


On a directement 
a + bpe + 4 = à + b'ps + Cas + d'u +, 
et donc 
(D —b}m = aa — cr, — d'z + — 4. 
et donc 
a— a! C'Ty d'z Ut — V4 


PUR Heh Del, Vab: 


(8.11) 


D'autre part, on a 
Q M a+bp+uw a +bp+cx+d'u+u 
TRES b b' / 


ce qui donne 


(b° — b)qe = b'(a + bp + we) — b(a’ + b'ps + c'xs 


d'a +) = ab — ab — bc'x4 — bd'24 + bus — bus. (8.12) 


Les equations (8.11) et (8.11) permettent d'écrire la forme réduite : 


a— a c'T+ d'2 Ut — Ve 
FT Web deb Web 
ab! — ab bc'x; bd'2 bus — bu 
Ve Her ide Heu ce 
On redéfinit les paramètres : 
{ Per — T1 + Mol FT T3 + Et 
Qi — T4 TAEL4E À A624t + Mt 
Avec 
a— a! —c —d 
HT pr. ET pe Seb 
ab! — ab —bc! —bd! 
RO pen. Cp ee) 


Nous avons donc 6 paramètres dans la forme réduite et 6 paramètres dans la forme structurelle. Cette 
situation est favorable à l’identification, mais cela ne la garantit pas. En effet, dans notre cas : 


T6 T5 


= b 


T3 T2 


= b 


On dit dans ce cas que le paramètre b est suridentifié, c’est-à-dire qu’il est défini par deux estimateurs 
distincts. De ce fait, le paramètre a est aussi sur-identifié (car il dépend du paramètre b) : 


Ta — DT = a 


L’équation d'offre est donc sur-identifiée et l’équation de demande non-identifiable. 


115 


8.6 Méthodes d’estimation 
8.6.1 Moindres carrés indirects (MCI) 


1. On écrit la forme réduite du modèle, c’est-à-dire qu’on reformule le modèle pour que seules les variables 
exogènes soient explicatives ; 

2. On estime les paramètres de la forme réduite par les moindres carrés ordinaires (MCO) ; 

3. On estime les paramètres de la forme structurelle en utilisant les relations algébriques entre les pa- 
ramètres de la forme réduite et de la forme structurelle. 


Une condition nécessaire (mais pas suffisante) pour que les paramètres de la forme structurelle soient iden- 
tifiables est qu’il y ait au moins autant de paramètres dans la forme réduite que dans la forme structurelle. 


8.6.2 Doubles moindres carrés (2MC) 


On estime directement les paramètres de la forme structurelle en utilisant toutes les variables exogènes 
comme variables instrumentales. 


Propriétés : 
— Si le modèle est juste identifié, la méthode des 2MC donne le même résultat que la méthode des MCI 
— Si le modèle est sous-identifié, la méthode des 2MC ne donne pas de résultats. 
Condition d'ordre : Une condition nécessaire pour qu’une équation d’un modèle à équations simultanées soit 
identifiable est que le nombre de variables explicatives de l’équation soit inférieur ou égal au nombre de 
variables exogènes de l’ensemble du modèle. 


La méthode des 2MC a l’avantage, par rapport à la méthode des MCI, de ne donner qu’un seul estima- 


teur en cas de sur-identification. 


Exemple 8.4 
Cr = a+ BY; +u 
Y = C;+ 1, 


Avec deux variables exogènes (J; et la constante «) et 2 variables explicatives dans la première équation (la 
deuxième étant une identité), le modèle est juste identifiable. 


Exemple 8.5 
a = a+ bp + CA + uw 
qe = à + b'ps + u 


Avec 2 variables exogènes (2, et les constantes a, a’), la première équation (avec 3 variables explicatives) 
n’est pas identifiable, mais la deuxième équation (avec 2 variables explicatives) est identifiable. 


Exemple 8.6 
qe = a + bp + CH + U 
qu = à + bp + ca + 


Avec 3 variables exogènes (2, x, et les constantes à, a’) et 3 variables explicatives dans chaque équation, le 
modèle est juste identifiable. 


Exemple 8.7 
a = a+0bp +w 
qu = à + bp + rs + d'a + 
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Avec 3 variables exogènes (z,, x, et les constantes a, a’), la première équation (avec 2 variables explicatives) 


est sur-identifiée et la deuxième équation (avec 4 variables explicatives) est sous-identifiée. 


Exemple 8.8 Soit la forme structurelle 
CY = à + bY; + U+ 
I, = C+ dYi_1 + Ut 
Ys = C} + I. 


Avec C3, 1:, Y; comme variables endogènes et Y;_1 et la constante comme variables exogènes. 


On a 
LT =Y,; -C. 


Avec la deuxième équation, on obtient 
Y=Ci+c+dY; +, 


ce qui donne 
Cr = a + bY, + u 
G=Y-c—dYi_1+tu. 


En soustrayant ces deux équations, on a 
1) + + ue 0e, 


0=a+c+(b 


ce qui donne 
a+c d Ut — VU} 
= Ve . 
ed deb To 


En soustrayant à la première équation, la seconde multipliée par b, on a 


Cr — bC, = a + bc + 0 + bdYs + uw bus, 


soit 
C = À } — L 
| DE ee 1 7: b 


On obtient ainsi la forme réduite : 
TI; =CT dYy_1 + V4 
Ci, = + dy + €4 


== 
= + Sr 1 + M. 


Avec deux variables exogènes dans le modèle et 2 variables explicatives par équation, le modèle est juste 


identifiable. 


Exemple 8.9 Modèle macro-économique de Klein (extrait de Bourbonnais, 1993) 


Forme structurelle : 

Ci = ao + a&1P4 + a2P4-1 + a3(W4 + W}) + ma 
Le = bo + b1 Pi + b2 Pi 1 + b3K 3-1 + moe 
W, = C + C1 À} + CoXy_] + Cat + T3t 
P,=Xy-W, — Tax; 
Ke = + Ki: 


Avec : C; = consommation ; P, = profit ; W, et W} = salaires dans l’industrie et l'administration ; 1, = 
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investissements ; K4 = stock ; Xy — production industrielle ; G}; — dépenses publiques et T'axy = 
impôts. 


Les trois premières équations comportent chacune 4 variables explicatives et les trois dernières équations 
sont des identités comptables. Etant donné qu’il y a 8 variables exogènes : 


Ps-1, X4_1, K5_1, t, G+, Tax, LA 


et les constantes, cela implique une sur-identification du modèle; il faut donc utiliser la méthode des 2MC 
dans ce cas. 


Exercices 
Exercice 8.1 Soit la forme structurelle d’un modèle d'équations simultanées, 


y = à + dry + u 
Y=C+TU 


où x, et y, sont endogènes, { = 1,...,n les u, et les v, sont des résidus homoscédastiques tels que Efus) = 0, 
var(u) = o2, E(w,u;) = 0,t 4 j, E(u) = 0, var(u) = 02, E(w,v;) = 0,t £ j, E(w,w:) = 0, pour tout t. 
Écrivez la forme réduite du modèle. 

Quelle est la covariance entre 4 et w, (en fonction de a? et de a?) ? 

Quelle est la corrélation entre x; et u4 ? 


Donner les estimateurs des paramètres de la forme réduite du modèle. 


SRE SRE 


Les paramètres de la forme structurelle du modèle sont-ils identifiables, tous ou seulement certains 
d’entre eux ? Donnez l'expression des estimateurs par les moindres carrés indirects pour les paramètres 
identifiables. 


6. Si le paramètres a était connu, quel serait l’estimateur par les moindres carrés indirects de b? 
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Chapitre 9 


Modeéles à choix discret 


9.1 Modèles probit, logit et à probabilité linéaire 


9.1.1 Le modèle 


Souvent, la variable dépendante y; mesure une qualité ou une caractéristique. Dans ce cas, y; sera codée 
de la manière suivante : 
_ f 1 si l’unité à possède la caractéristique 
DE { O0 sinon 
On dispose de p variables explicatives æ1,---,æ%;,--: ,%,, et on note x;; la valeur prise par la jème variable 
explicative sur l’unité à de la population. De plus, on note 


Xi — (dnse< > Lijs°°" pal 


le vecteur colonne des p valeurs prises par les variables explicatives sur l’unité statistique i. Les x;; sont 
supposés constants (non-aléatoires). Considérons également une fonction F(.) de R dans [0,1], croissante, et 
dérivable, telle que lim F(z)=0,et lim F(z) = 1. Le modèle à choix discret s’écrit 

Z— —00 Z—00 


1 avec une probabilité F(x! 


0 avec une probabilité 1 — F(x/B). 
avec y; indépendant de y; pour tout à £ j. Le modèle à choix discret peut également s’écrire : 
Yi — F(x;0) + €, 


où 
- Best un vecteur de p coefficients de régression, 


- €; est une variable aléatoire telle que E(e;) = 0, et Eee) = 0. 
Comme y; vaut 1 ou 0, on peut déterminer la distribution de probabilité exacte de €; 


—F(x! 8) avec une probabilité 1 — F(xB) 
Ei — ñ re ! 
1—F(x/5) avec une probabilité F(x/B). 


Les résidus ne sont donc pas homoscédastiques, car ils dépendent des x;. Leur variance vaut 


var(es) =[1-F(O)-F GO) + F0) - F0) 
HF ONF (KB). 


Le modèle peut également s’écrire : 


Uk € {0, TE 

E(yi) = F(xB), 

var (vi) = [1-F(xB)F (x 0) 
cov(u, us) =0,1% 3. 
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9.1.2 Choix de la fonction F(.) 

Le choix de la fonction F(.) détermine le modèle. Les trois modèles les plus utilisés sont les modèles logit, 
probit et en probabilité linéaire. 
Le modèle logit 

Le modèle logit consiste à utiliser une fonction logistique, 


1 e° 


lite 11e 


F(2) 


Le modèle probit 


Le modèle probit consiste à utiliser la fonction de répartition d’une variable normale centré réduite, 


* 1 
F(2) —= h "" du. 


Le modèle de probabilité linéaire 


Le modèle de probabilité linéaire consiste à utiliser une fonction linéaire tronquée, 


0 si z < —0,5 
F(2) = z+0,5 si —0,5<z2<0,5 
1 si 0,5 < z. 


9.1.3 Remarques sur la fonction F(.) 


La fonction F(.) est supposée croissante, dérivable, telle que F(0) = 0,5, lim,_,_… = 0, et limF(z) = 
1. Théoriquement, n'importe quelle fonction de répartition d’une variable aléatoire continue pourrait être 
utilisée pour construire un modèle à choix discret chacune des fonctions F(.) possède évidemment une 
fonction de densité associée : 


dF(2) 
 p() — 
ID=FO=TE. 
Modèle logit 
La densité est 
e° e?? 
fG) = 


Modèle probit 


La fonction f(.) est simplement la fonction de densité d’une variable aléatoire normale centrée réduite. 


Modèle en probabilité linéaire 


La fonction F(.) est 


O0 si z < —0,5 
fG)=< 1 si —-0,5< z<0,5 
0 si0,5 < z. 
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9.1.4 Estimation par les moiïndres carrés 


L'estimation par les moindres carrés (ordinaires) consiste à minimiser en (3 


Q(8) = S [ui - FEB 


i=1 
Si on note dE (e) 
LP) L 
J() = F9 = ©, 
alors on à 
0F(x!0) 


Pour trouver le minimum en . de _ on annule le vecteur des dérivées partielles de Q(B) en B : 
=25 lu F(x0)] Fc B}xi = 
ce qui donne 
D uifB}xi = D F(RB) (RE B)xi. (92) 
i=1 i=1 


L'expression (9.2) est un système non linéaire de p équations à p inconnues. Ce système ne peut être résolu 
qu’au moyen d’un algorithme (méthode de Newton). 
9.1.5 Méthode du maximum de vraisemblance 

Une autre méthode d’estimation est la méthode du maximum de vraisemblance. Comme 


II F9); 4 IT L-F&09)}. 


ilyi=1 ilyi=0 


= IT {* kB 01 FGBNT"}, 


Il 


Pr(yi:::Yn) 


la fonction de vraisemblance est 
n | en 
(Buse) = [[ {F8 1 -FGANT"). 
i=1 


Le logarithme de la fonction de vraisemblance est donc 


(8; Y1: °°: Un) 
= log L(B: 1°" Un) 


= D tutos” (x) + (1 — y) log[1 — F(x0)]} . 


Pour déterminer l’estimateur du maximum de vraisemblance, on annule la dérivée de {(GB; 1,7»), ce qui 
donne 


F(éB)l1 - F(x8)] 


DE ep )xi[yi — F(xB)] 
0 


(9.3) 


On obtient à nouveau un système de p équation à p inconnus. Cependant ce système n’est pas le même que 
celui obtenu par la méthode des moindres carrés. Les deux méthodes donnent donc des estimateurs distincts. 
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Modèle logit 


Dans le cas du modèle logit on a 


dF(z 
so = O2 FGF), 
; 
et donc l'égalité (9.3) devient 
dx = JS xF(x ) 
i=1 i=1 


9.1.6 Interprétation selon une variable latente 


Souvent les modèles à choix discret sont présentés au moyen d’une variable aléatoire latente (non- 
observable) qui régit les y; : 
AT HO. Hev 


La variable latente peut être régie par un modèle linéaire général : 
Zi = x. + Ui, 


avec cov(u) = Io?, et u = (u---u,)’. De plus les résidus u; sont supposés avoir une fonction de répartition 
F,(.). On peut alors écrire : 


Pr(gi =1) = Pr(xfB+u; > 0) 
= Pr(u; > —x:B) 
= 1-Pr(u; < -xf) 
= l- F(-x 0). 


Si la densité est symétrique et de moyenne nulle, alors F,(—2) = 1 — F,(2) et 


Pr(yi = 1) = F(xB), 
et donc 
Pr(yi — 0) =1- Fi(xB). 
On retrouve donc exactement la formulation donnée en (9.1). En introduisant une variable latente, la fonction 
F,(.) peut alors s’interpréter directement comme la fonction de répartition des résidus. 


9.1.7 Évaluation de la qualité du modèle 


Considérons f un estimateur de (3, qui peut être défini pour chacune des trois modèles, soit par la 
méthode du maximum de vraisemblance, soit par la méthode des moindres carrés. Il est possible d'estimer 
la probabilité F(x/B) par 


di = F(xB). 

De plus, on peut réaliser une prédiction de y; en utilisant 
Ne 1 sig >0,5 
di O si ÿ; <0,5, 

ce qui peut également s’écrire 
ÿ = 1 sixB>0 
i 0 six!/B <0, 
Les deux indices principaux permettant d'évaluer la qualité du modèle sont : 


— Le coefficient de détermination calculé entre les y; et les ÿ%. 
— La proportion d’unités bien classées, définie par 


1 nm 
P==În- ge 
(r >. x) 
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9.2 Analyse discriminante 


9.2.1 Le modèle 


Supposons que les données soient partitionnées en deux groupes notés G1 et G2 selon les valeurs de la 
variable dépendante y qui prend uniquement les valeurs 0 et 1 : 


— l'unité à € G1 si y = 1, 
— l'unité à € Go si Vi — 0. 


Les variables explicatives x; sont supposées aléatoires, continues, et indépendantes et sont régies par une 
fonction de densité qui dépend du groupe 


— x; à une densité f1(x) si i € Gi 
— x; a une densité f(x) si à € G2. 
En outre, on suppose qu’une proportion p1 d'unité appartient à G1 et une proportion p2 appartient à G2. 


9.2.2 La règle bayésienne 


Pour une unité particulière, le théorème de Bayes permet de déduire la probabilité d'appartenance à un 
groupe : 
p1f1(xi) 
pi f(x) + pafo(xi)” 
p2 fa(xi) 
pi f(x) + pafo(i) 
La règle de décision consiste à classer l’unité à dans G si 


Pr(unité à € Gilxi) = (9.4) 


Pr(unité à € G2lxi) = (9.5) 


Pr(unité à € Gilxi) > Pr(unité à € Golxi), 


et à classer l’unité 4 dans G2 dans le cas contraire. Comme les dénominateurs de (9.4) et (9.5) sont égaux, 
on classe l’unité à dans G si 
pif1(xi) > pafo(xi), 


ou si 


9.2.3 Le modèle multinormal 


Un cas relativement simple s’obtient quand f,(x) et f2(x) ont une distribution multinormale de même 
motrice variance-covariance , mais dont les moyennes dépendant du groupe, autrement dit 


1 1 
f(x) (2r)7/215|172 Exp 5 & D) (x j;) 


avec j = 1,2. Dans ce cas, 


AG) _ exp [-5(&-H)ET(x-p)] 
f(x) EXP [-5&- 2) 5 1(x — 12,)] 


—. ÆxP ; [(æ : B)E (x — LH) — (x LB) 2 "(x + L)] 


15 L'.s; 82 1.5 
—. EP WE “(Hi — Hi) + SH2E “Hi UE pa] 


La règle bayesienne devient : on classe l’unité à dans G; si 
dA 1 


X; Pen 1 n = 1 / … 
re — exp Ix3 “(Hi — Ha) + SH2E ‘Ho SUE pl 
P2 
pi” 
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ce qui s'écrit aussi 
S(xi) > 0, 
à 1 : 1 : po 
86) = ET (ha — Ho) + SHEE Me HE Bi log 


La fonction S(x) est appelée fonction de score ou statistique d’Anderson. La fonction S(x) est estimée 
simplement en prenant 


et 

2e 1 > : 

DE = ÿ (Xi — X1)(xi — 1) + >. (Xi — X2)(xi — Ko) |, 

ieGi ieG2 
où . 
= D xetre ) x 
ieGi ieG2 

Exercices 


Exercice 9.1 Soit une variable dépendante binaire y; prenant les valeurs 0 et 1. Supposons que l’on dispose 
de deux variables explicatives définies de la manière suivante : 


Ta —= lpourtouti=1,:..:,n 
1 si i présente une caractéristique 
T2 = | 
2 O sinon. 


Si on note 


nm 

Nrs  — ) Ti2, 
i=1 
nm 

Ny _ ) Vi, 
i=1 
nm 

Nxoy  — ) Ti2Ui, 
i=1 


estimer le coefficient de régression pour toutes les méthodes proposées. 
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Chapitre 10 


Exercices récapitulatifs 


Exercice 10.1 Exercice concernant chapitre 1. 


1. Donnez le rang de la matrice suivante : 


2 1 3 
A=!|4 2 1 
6 3 
2. Effectuez le produit Ax, où : 
1 
x = |3 
5 


3. Donnez en quelques phrases une interprétation géométrique de l’estimation données par moindres 
carrées ordinaires. 
Exercice 10.2 Exercice concernant le chapitre 2. 


1. Montrez, dans le cas bivarié, que : 
Lo 


DCE TL 


i=1 
2. Expliquez en une phrase le principe des moindres carrés et donner l’estimation de b (en fonction de la 
matrice X et du vecteur y) qui en découle. 


Exercice 10.3 Exercice concernant le chapitre 3. 


1. Donnez la définition mathématique de l'espérance d’une variable aléatoire discrète et de même pour 
une variable aléatoire continue et donnez une interprétation de l’espérance en une phrase. 


2. Montrez que le carré d’une variable de Student à q degrés de liberté est une variable de Fisher à 1 et 
q degrés de liberté. 
Exercice 10.4 Exercice concernant le chapitre 4. 
1. Citez les hypothèses du modèle linéaire général sous forme mathématique avec explications en français. 
2. Citez l'hypothèse faite concernant les erreurs dans l’estimation par maximum de vraisemblance et 
expliquez en quelques phrases la technique de l’estimation par maximum de vraisemblance. 


3. Donnez la définition d’un estimateur sans biais et donnez un exemple (avec calculs !). 


Exercice 10.5 Soit le modèle : 
y = a+bt+e; avect=1,...,n 
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1. Donnez les estimations par MCO de a et b en les simplifiant autant que possible. 


2. Calculer la variance de B (où 8 = (a,b)) à nouveau en la simplifiant autant que possible. 


Exercice 10.6 Définissez la notion de variable exogène (au sens statistique). La notion de variable exogène 
est-elle la même que celle de variable explicative ? (réponse sans calcul et en 3 lignes maximum) 


Exercice 10.7 En utilisant les variables instrumentales, on utilise la matrice 
X{X'Z(Z/Z) ZX} X'Z(Z/Z) 7 


1. Montrez que cette matrice est idempotente (et est donc un projecteur). (réponse en 3 lignes) 


2. Sur quel sous-espace cette matrice projette-t-elle ? (réponse en 1 ligne). 


Exercice 10.8 La régression peut s’écrire comme une projection sur un sous-espace. Quelle est la significa- 
tion géométrique du nombre de degrés de liberté n — p par lequel on divise la somme des carrés des résidus ? 
(réponse sans calcul et 2 lignes maximum). 


Exercice 10.9 Exercice basé sur le chapitre 2 du livre de Ernst E. Berndt, The practice of Econometrics- 
classic and contemporary. 

Le CAPM est à la base de la théorie moderne du portefeuille. C’est un modèle d'évaluation pour les actifs 
financiers qui fut développé dans les années 60. Ce modèle met en relation la rentabilité d’un titre finan- 
cier avec la rentabilité du marché et cela d’une manière très simple. L'idée de base est la suivante. Les 
investisseurs sont rémunérés pour le risque qu’ils prennent. Lorsqu'ils investissent dans un titre, ils prennent 
d’une part un risque spécifique (risque lié à l’entreprise ou à son secteur d’activité) et d’autre part un risque 
systématique ou risque de marché (risque lié aux conditions macro-économique du pays par exemple). En di- 
versifiant son portefeuille, l’investisseur pourra éliminer une bonne partie du risque spécifique ; par contre, le 
risque systématique ne pourra être éliminé puisque toutes les entreprises y sont confrontées. Par conséquent, 
l'investisseur ne sera rémunéré que pour le risque systématique qu’il prendra. Cette exposition au risque de 
marché s’appelle 8; elle correspond à la covariance entre le rendement du titre (ou du portefeuille) et le 
rendement du marché divisé par la variance du marché. Ainsi selon ce modèle très simple la prime d’un actif 
à (défini comme le rentabilité du titre à moins le taux sans risque) est donnée par l'exposition au risque du 
marché (5 multiplié par la prime de risque du marché (défini comme la rentabilité du marché moins le taux 
sans risque). Sous sa forme mathématique, on a : 


R-Rr=Bx [Rm — Rf] 
Le but sera de tester ce modèle. Pour se faire nous allons prendre la spécification suivante : 


R-R;=a+Bx[Rn-R;|l+Ee: 


où 
R,, est la rentabilité mensuelle du marché 
R7 est le taux sans risque 


EiTv N(0, a?) 


Fait très intéressant : l'estimation du paramètre 8 par MCO est donné par COV(R;, Rn) + Var(Rh) 

Ainsi l'estimation du f par MCO rejoint la définition du 5 donnée ci-dessus. Il est donc tout à fait 

approprié d'estimer le 5 par MCO. 

1. Avant de commencer, réfléchissez aux tests d’hypothèses que vous pourriez mettre en oeuvre. Quelle 
devrait être la valeur de «a selon le modèle théorique ? Que pouvez-vous dire concernant le B d’une 
entreprise plutôt risquée ? De celui d’une entreprise plutôt stable (nommée souvent “blue chip”) ? Et 
d’un portefeuille essayant de répliquer le marché ? 
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2. Comme toujours, la 1ère étape sur Eviews consiste à créer un espace de travail. Les données sont 
mensuelles (Monthly) et la période d'observation va du mois de janvier 1976 (notation :1976 : 1) au 
mois de décembre 1987 (notation :1987 : 12). 


3. Maintenant, importez les séries de rentabilité CONED (Consolidated Edison), DEC (Digital Equipment 
Company), MARKET (marché), RKFREE (taux sans risque). Attention, les observations de ces séries 
vont de 1978 :01 à 1987 :12. Par défaut Eviews choisit la période d'observation (sample) égale à la 
période spécifiée lors de la création de l’espace de travail (workfilerange). Ainsi, il faudra adapter la 
période d’observation à celle de nos séries. Pour cela, il suffit de sélectionner la case Sample dans la 
barre des menus et de spécifier la période voulue. Une fois cela fait, procédez comme à l’exercice 1 pour 
importer les données. Cette fois-ci les séries à importer sont du type ASCII (fichier texte). La fenêtre 
ASCIITextImport qui apparaîtra en suivant la même démarche qu’à l’exercice 1 est légèrement 
différente de la fenêtre ExcelSpreadsheetImport que vous avez rencontré à l’exercice 1. Dans la 
1ère case, il faut spécifier le nom de chaque série s’il n’est pas déjà dans le fichier ou le nombre de séries 
à importer si les séries sont déjà nommées dans le fichier. Pour vous aider, il y à une case en bas de la 
fenêtre pour visualiser le fichier. Attention aux délimiteurs. Pour le reste des options sur cette fenêtre, 
je vous laisse faire la traduction, c’est straightforward ! 


4. Nous avons les séries pour les rentabilités, mais rappelez-vous, nous voulons faire des régressions sur 
les primes. Il faut donc créer de nouvelles séries en prenant les différences entre les rentabilités des 
titres ou du marché et le rendement sans risque. Pour se faire, allez dans Quick/Generateseries et 
entrez une équation du type : 


P_MARKET = MARKET — RKFREE. 


Faites-le pour toutes les séries importées. Une fois cela fait, profitez-en pour visualiser les primes sous 
une autre vue. 

5. Il est temps de faire des régressions. Prenez comme variable expliquée la prime de CONED (entreprise 
produisant de l'électricité) et ensuite prenez la prime de DEC (entreprise évoluant dans le secteur 
informatique). Que constatez-vous par rapport aux B et « estimés ? Sont-ils comme vous les imaginiez ? 
Étant donné que le R? de la régression indique la proportion de la variation de la variable expliquée 
(risque total) qui est expliquée par la variation de la variable explicative (risque systématique), le R? 
dans le CAPM nous donne la part du risque de marché (systématique) dans le risque total du titre. 
Que constatez-vous ? Donnez la part du risque spécifique et systématique par rapport au risque total. 


6. Pour les deux régressions, testez a = 0 contre à £ 0,8 = 0 B Æ 0,6 = 1 contre 8 Z 1 et le test joint : 
a = 0,85 = Icontrea £ 0,5 Z 1. Pour cela sélectionnez 


View/Coefficienttests/Wald — CoefficientRestrictions 


et spécifiez la contrainte linéaire que vous voulez tester. Attention, les coefficients de la régression sont 
stockés dans Eviews dans le vecteur c. Pour accéder au premier coefficient estimé (très souvent la 
constante), il faut taper c(1), pour le deuxième coefficient estimé c(2), etc 


7. Le CAPM suppose que tous les investisseurs accèdent simultanément à l’information et l'utilisent 
rationnellement dans leur décision d’investissement. Nous allons tester cette hypothèse en faisant de 
l’analyse d'événement. Le but est de savoir si un événement générant de l'information se répercute 
significativement au niveau du marché. Pour cela vous avez le fichier EVENTS qui contient plusieurs 
séries. Attention, la période d'observation n’est pas la même qu'avant. Vous savez ce qu’il faut faire 
dans ce cas maintenant ! La série GPU contient les rentabilités observées de la General Public Utilities. 
Cette entreprise est propriétaire de la Three Mile Island plant. Le but est d'analyser l’effet de l’incident 
nucléaire qui se produisit dans cette station nucléaire le 28 mars 1979. 


8. Faites la régression comme précédemment. Trouvez le graphe des résidus et regardez le résidu en avril 
1979. Que constatez-vous ? Pourrait-on améliorer notre modèle pour prendre en compte cet événement ? 


9. Oui, on peut. Pour ce faire nous allons ajouter à notre modèle une variable muette qui agira comme un 
détecteur d'événement. Cette variable prendra la valeur un pour le mois d’avril 1979 et zéro partout 
ailleurs. Pour créer cette série simplement, allez dans Quick/GenerateSeries Et vous entrez TMI- 
DUM=0 (TMIDUM sera le nom de votre variable muette). Puis vous changez le période d’observation 
pour n’avoir que la période 1979 :4 (pour cela, il suffit d’aller dans Sample et de spécifier la période 
voulue) et vous refaites la même procédure que ci-dessus, mais cette fois-ci en spécifiant TMIDUM-1. 
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Maintenant remettez la période d'observation que vous aviez avant (1976 :1 à 1985 :12). Et votre va- 
riable muette est là ! Souvent, les variables muettes sont des variables saisonnières. Dans ce cas, Eviews 
a déjà des fonctions préprogrammés. Veuillez vous référer à la fonction @seas(n) pour plus de détails. 


Maintenant, il ne reste plus qu’à faire la régression en n’oubliant pas d’ajouter la variable muette comme 
variable explicative pour prendre en compte l’incident nucléaire. Regardez le graphe des résidus. Que 
constatez-vous ? Regardez l’output de la régression. Est-ce que la variable muette est statistiquement 
significative ? Que peut-on conclure sur l’importance de cet événement et sur l’efficience du marché 
dans ce cas ? 


Exercice 10.10 Exercice d'introduction au logiciel Eviews 3.0. 

L'entreprise Nambe Mills basée à Santa Fe au Nouveau Mexique fabrique de la vaisselle et d’autres produits 
ménagers. Pour mieux maîtriser ses coûts et optimiser sa production, elle désire connaître précisément le 
rapport entre le temps qu’il faut pour polir un de leur produit et le diamètre de ce dernier. 


1. 


Pour se faire, vous disposez de 59 données en coupe dans le fichier don_polish.xls. En premier lieu, il 
faut créer un espace de travail (workfile) qui prend en compte des données en coupe allant de 1 à 59. 
Pour cela, allez dans File/New/workfile. La fenêtre WorkfileRange apparaît; il suffit de choisir 
Undated or Irregular et de spécifier dans les deux cases en-dessous la première observation (1) et la 
dernière (59). 


. Importez les 3 séries qui se trouvent dans le fichier Excel don polish.xls. Pour se faire, allez dans 


Procs/Import/ReadText — Lotus — Excel: le fichier se trouve sur un des disques partagés de l’Uni- 
versité (Etu_commun sur Noir). Puisque les séries sont déjà nommées, il suffira de spécifier le nombre 
de séries dans la première case de la fenêtre ExcelSpreadsheetImport (il y en a trois qui nous 
intéressent). Attention les données qui nous intéressent commencent dans la case B2. 

Vous avez fait le plus dur. Il est maintenant temps d'enregistrer tout ça sur votre disquette. Cliquez 
sur la case Save. Et enregistrez votre workfile (.wfl) sur Disquette3(A :) en choisissant un nom 
approprié. 

Avant de manipuler vos séries, il est utile de vérifier si l’importation des données s’est faite correcte- 
ment. Pour cela, vous allez créer un groupe (Group) en sélectionnant les trois séries importées. Plus 
précisément vous sélectionnez une des trois séries puis vous maintenez pressé CTRL et cliquez sur 
les deux autres. Vous avez mis en évidence les trois séries ; maintenant double cliquez (avec le bouton 
de gauche) sur une des trois et vous voyez l'option pour ouvrir un groupe; faites-le en cliquant sur 
OpenGroup. Sauvez ce groupe en le nommant. Allez sur Name et choisissez un nom approprié. 
Attention, ayez toujours en tête qu'Eviews ne permet pas de choisir des noms de plus de 16 caractères 
(ou 8 dépendant de l’objet). So keep it short ! Et évitez les accents. 


Vous avez vérifié et les données sont en ordre. Maintenant vous pouvez commencer le travail d’économétrie 
à proprement parler. La première étape consiste toujours à “prendre connaissance des données”, c’est- 
à-dire à se familiariser avec les données en les visualisant par exemple. Cette étape est très importante 
car elle nous permet de déceler très rapidement des tendances, de la non-stationnarité, des retourne- 
ments ou tout simplement des données aberrantes dans nos séries. Pour une vue simultanée des trois 
séries sélectionnez View/MultipleGraphs/Line. Il apparaîtra les trois petits graphiques à l’écran. 
Vous avez sûrement remarqué que le tableau contenant les données des trois séries a disparu. Ceci est 
normale. En effet, Eviews travaille avec des objets (Series, Group, Equation, Matrix, etc.) et ces 
objets peuvent être “visualisés” de différentes manières. Pour voir le choix qui vous est proposé allez 
dans View. Comme vous le constatez, le choix est impressionnant. Si vous voulez à nouveau visuali- 
ser le groupe sous l’angle des données (c.-à-d. de visualiser toutes les observations de chaque série) il 
vous faut sélectionner SpreadSheet. C’est un bon moment pour sélectionner différents points de vue 
de l’objet et ainsi découvrir une partie de toutes les potentialités que recèlent ce logiciel. Par exemple, 
en sélectionnant Correlations vous allez voir apparaître la matrice de corrélations entre les variables. 
Cette matrice peut vous permettre d'évaluer assez rapidement les risques de multi-collinéarité entre 
les différentes variables explicatives. 

Maintenant que vous vous êtes familiarisés avec les données, il est temps de faire des régressions. Vous 
allez estimer un modèle de régression pour estimer le temps de polissage d’un objet (time) en fonction 
de son diamètre (diam) et en ajoutant une variable muette (dumcass)qui prend en compte le fait 
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que les casseroles (plus complexe) prennent plus de temps à polir que la vaisselle. Avant de faire la 
régression, demandez-vous si il est utile ou non de mettre une constante dans le modèle. Pour confirmer 
vos soupçons (!), faites la régression avec et sans la constante. 


Pour estimer le modèle, sélectionnez Quick du menu principal et choisissez EstimateEquation ... 
Cela ouvrira la fenêtre Equationspecification. Tapez dans la première case, en premier lieu, le nom 
de la variable expliquée, ensuite si vous voulez une constante, tapez C pour l’inclure dans le modèle 
(le logiciel reconnaîtra ce € comme la constante à inclure ; n’appelez donc jamais une de vos séries C , 
cela risquerait de poser problème!) et ensuite tapez le nom de chaque variable explicative du modèle. 
Il est important de laisser un espace entre chaque variable. En économétrie, il arrive fréquemment de 
devoir prendre des différences premières, secondes, etc. Le logiciel a pris ce fait en compte et permet 
de simplifier la tâche de l’utilisateur ; pour des différences premières du logarithme d’une série nommée 
ABC, il suffit de taper dlog(ABC) ; pour les différences premières d’une série ABC, il suffit de taper 
d(ABC). Et si l’on veut une fonction de la variable comme le logarithme du ABC, il suffit de taper 
log(ABC). Par défaut la méthode d’estimation est celle des moindres carrées (LS — LeastSquares). 
C’est ce que vous voulez. Reste à spécifier sur quel échantillon la régression se fera. Par défaut Eviews 
spécifie la taille de l’échantillon que vous avez donnée lors de la création du workfile au point 1. 
L’échantillon est toujours le même, il ne reste plus qu’à presser OK et la régression s'effectuera. Ce 
n'était pas si dur! 

Les résultats de la régression sont apparus à l’écran. Vous remarquerez que la qualité de la régression 
est bonne. Pour des données en coupe, un R? de 40% peut déjà être considéré comme bon. Ces 
résultats sont intéressants, mais ils ne sont valables que si les hypothèses du modèle linéaire générale 
sont satisfaites. Or, il est bien connu que lorsque l’on a des données en coupe, un effet taille peut 
apparaître et l'hypothèse d’homoscédasticité n’est plus satisfaite dans ce cas. Une première approche 
pour observer cela est de changer de vue. Et oui, l'estimation LS est un objet Equation et comme tout 
objet sur Eviews il y a plusieurs vues possible pour étudier l’objet. Je vous conseille de sélectionner 
View/Actual, Fitted, Residual/Graph. Ce graphe vous donne les valeurs estimées et observées par 
le modèle de la variable expliquée et en-dessous les résidus. Regardez les résidus. Vous observez des 
piques parfois très grand qui peuvent signaler une présence d’hétéroscédasticité. Mais pour en être 
sûr, créez un groupe comprenant la série diam et la série resid (qui contient par défaut les résidus 
de la dernière régression effectuée par le logiciel). Maintenant le but est de produire un graphe qui 
met en rapport les résidus avec le diamètre des produits. Pour cela, il faut à nouveau changer de vue, 
sélectionnez View/Graph/Scatter/SimpleScatter. L’hétéroscédasticité est maintenant flagrante. 
Pour conserver à part ce graphe, sélectionnez l’option Freeze. Cette option “gèle” l’image à l’écran et 
l’intègre dans un nouvel objet qu’il faudra nommer. Les résultats de la régression précédente sont donc 
inutilisable, il faut corriger cet effet. 


Avant de corriger l'effet, il faut s’assurer qu’on est bien en présence d’hétéroscédasticité. Pour cela, il 
existe un test statistique, c’est le test de White. Ce test peut se faire sur Eviews. Reprenez la fenêtre 
contenant votre régression et changez de vue (View/ResidualTest/White/Heteroskedasticity). 
Le test indique clairement que l’hypothèse nulle d’homoscédasticité est rejetée. 


Dans le but d'éviter l’hétéroscédasticité et également afin de faciliter l’interprétation économique, on 
effectuera la même régression, mais cette fois-ci en prenant le logarithme des sériestime et diam. 
Donnez intuitivement la raison de prendre les logarithmes. Commenter vos résultats, discutez du com- 
portement des erreurs dans ce cas-ci et faites le test de White. Félicitations, vous venez de terminer 
votre premier exercice sur Eviews ! 
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Chapitre 11 


Tables statistiques 


TAB. 11.1 - Table des quantiles d’une variable normale centrée réduite 


Zp 


Ordre du quantile (p) 


Quantile (2,) 


Ordre du quantile (p) 


Quantile (2,) 


0.500 
0.550 
0.600 
0.650 
0.700 
0.750 
0.800 
0.850 
0.900 
0.950 
0.970 
0.971 
0.972 
0.973 
0.974 


0.0000 
0.1257 
0.2533 
0.3853 
0.5244 
0.6745 
0.8416 
1.0364 
1.2816 
1.6449 
1.8808 
1.8957 
1.9110 
1.9268 
1.9431 


0.975 
0.976 
0.977 
0.978 
0.979 
0.990 
0.991 
0.992 
0.993 
0.994 
0.995 
0.996 
0.997 
0.998 
0.999 


1.9600 
1.9774 
1.9954 
2.0141 
2.0335 
2.3263 
2.3656 
2.4089 
2.4573 
2.5121 
2.5758 
2.6521 
2.7478 
2.8782 
3.0902 
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TAB. 11.2 — Fonction de répartition de la loi normale centrée réduite 


(Probabilité de trouver une valeur inférieur à u) 


p = F(u) 
— 00 0 u +00 
u 0.0 OI .02 .03 .04 .05 .06 .07 .08 .09 
0.0 | .5000  .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 
0.1 | .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 
0.2 | .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 
0.3 | .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 
0.4 | .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 
0.5 | .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 
0.6 | .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 
0.7 | .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852 
0.8 | .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 
0.9 | .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 
1.0 | .8413 .8438 .8461 .8485 8508 .8531 .8554 .8577 .8599 .8621 
1.1 | .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 
1.2 | .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 
1.3 | .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 
1.4 | .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 
1.5 | .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 
1.6 | .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 
1.7 | .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 
1.8 | .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 
1.9 | .9713 .9719 .9726 .9732 .9738 .9744 9750 .9756 .9761 .9767 
2.0 | .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 
2.1 | .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 
2.2 | .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 
2.3 | .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 
2.4 | .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 
2.5 | .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 
2.6 | .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 
2.7 | .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 
2.8 | .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 
2.9 | .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986  .9986 
3.0 | .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990  .9990 
3.1 | .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 
3.2 | .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995  .9995 
3.3 | .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996  .9997 
3.4 | .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997  .9998 
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TAB. 11.4 - Table des quantiles d’une variable x? à n degrés de liberté 


ordre du quantile 
0.01 0.025 0.05 0.95 0.975 0.99 
n=1 | 0.000157 0.000982 0.003932 3.841 5.024 6.635 
2 0.02010 0.05064 0.103 5.991 7.378 9.210 
3 0.115 0.216 0.352 7.815 9.348 11.34 
4 0.297 0.484 0.711 9.488 11.14 13.28 
5 0.554 0.831 1.145 11.07 12.83 15.09 
6 0.872 1.237 1.635 12.59 14.45 16.81 
7 1.239 1.690 2.167 14.07 16.01 18.48 
8 1.646 2.180 2.733 15.51 17.53 20.09 
9 2.088 2.700 3.325 16.92 19.02 21.67 
10 2.558 3.247 3.940 18.31 20.48 23.21 
11 3.053 3.816 4.575 19.68 21.92 24.72 
12 3.571 4.404 5.226 21.03 23.34 26.22 
13 4.107 5.009 5.892 22.36 24.74 27.69 
14 4.660 5.629 6.571 23.68 26.12 29.14 
15 5.229 6.262 7.261 25.00 27.49 30.58 
16 5.812 6.908 7.962 26.30 28.85 32.00 
17 6.408 7.564 8.672 27.59 30.19 33.41 
18 7.015 8.231 9.390 28.87 31.53 34.81 
19 7.633 8.907 10.12 30.14 32.85 36.19 
20 8.260 9.591 10.85 31.41 34.17 37.57 
21 8.897 10.28 11.59 32.67 35.48 38.93 
22 9.542 10.98 12.34 33.92 36.78 40.29 
23 10.20 11.69 13.09 35.17 38.08 41.64 
24 10.86 12.40 13.85 36.42 39.36 42.98 
25 11.52 13.12 14.61 37.65 40.65 44.31 
26 12.20 13.84 15.38 38.89 41.92 45.64 
27 12.88 14.57 16.15 40.11 43.19 46.96 
28 13.56 15.31 16.93 41.34 44.46 48.28 
29 14.26 16.05 17.71 42.56 45.72 49.59 
30 14.95 16.79 18.49 43.77 46.98 50.89 
31 15.66 17.54 19.28 44.99 48.23 52.19 
32 16.36 18.29 20.07 46.19 49.48 53.49 
33 17.07 19.05 20.87 47.40 50.73 54.78 
34 17.79 19.81 21.66 48.60 51.97 56.06 
35 18.51 20.57 22.47 49.80 53.20 57.34 
36 19.23 21.34 23.27 51.00 54.44 58.62 
37 19.96 22.11 24.07 52.19 55.67 59.89 
38 20.69 22.88 24.88 53.38 56.90 61.16 
39 21.43 23.65 25.70 54.57 58.12 62.43 
40 22.16 24.43 26.51 55.76 59.34 63.69 
42 23.65 26.00 28.14 58.12 61.78 66.21 
44 25.15 27.57 29.79 60.48 64.20 68.71 
46 26.66 29.16 31.44 62.83 66.62 71.20 
48 28.18 30.75 33.10 65.17 69.02 73.68 
50 29.71 32.36 34.76 67.50 71.42 76.15 
60 37.48 40.48 43.19 79.08 83.30 88.38 
70 45.44 48.76 51.74 90.53 95.02 100.43 
80 53.54 57.15 60.39 101.88 106.63 112.33 
90 61.75 65.65 69.13 113.15 118.14 124.12 
100 70.06 74.22 77.93 124.34 129.56 135.81 
110 78.46 82.87 86.79 135.48 140.92 147.41 
120 86.92 91.57 95.70 146.57 152.21 158.95 
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TAB. 11.5 - Table des quantiles d’une variable de Student à n degrés de liberté 


ordre du quantile 
0.95 0.975 0.99 0.995 
n=1 | 6.314 12.71 31.82 63.66 
2 | 2.920 4.303 6.965 9.925 
3 | 2.353 3.182 4.541 5.841 
4 | 2.132 2.776 3.747 4.604 
5 | 2.015 2.571 3.365 4.032 
6 | 1.943 2.447 3.143 3.707 
7 | 1.895 2.365 2.998 3.499 
8 | 1.860 2.306 2.896 3.355 
9 | 1.833 2.262 2.821 3.250 
10 | 1.812 2.228 2.764 3.169 
11 | 1.796 2.201 2.718 3.106 
12 | 1.782 2.179 2.681 3.055 
13 | 1.771 2.160 2.650 3.012 
14 | 1.761 2.145 2.624 2.977 
15 | 1.753 2.131 2.602 2.947 
16 | 1.746 2.120 2.583 2.921 
17 | 1.740 2.110 2.567 2.898 
18 | 1.734 2.101 2.552 2.878 
19 | 1.729 2.093 2.539 2.861 
20 | 1.725 2.086 2.528 2.845 
21 | 1.721 2.080 2.518 2.831 
22 | 1.717 2.074 2.508 2.819 
23 | 1.714 2.069 2.500 2.807 
24 | 1.711 2.064 2.492 2.797 
25 | 1.708 2.060 2.485 2.787 
26 | 1.706 2.056 2.479 2.779 
27 | 1.703 2.052 2.473 2.771 
28 | 1.701 2.048 2.467 2.763 
29 | 1.699 2.045 2.462 2.756 
30 | 1.697 2.042 2.457 2.750 
31 | 1.696 2.040 2.453 2.744 
32 | 1.694 2.037 2.449 2.738 
33 | 1.692 2.035 2.445 2.733 
34 | 1.691 2.032 2.441 2.728 
35 | 1.690 2.030 2.438 2.724 
36 | 1.688 2.028 2.434 2.719 
37 | 1.687 2.026 2.431 2.715 
38 | 1.686 2.024 2.429 2.712 
39 | 1.685 2.023 2.426 2.708 
40 | 1.684 2.021 2.423 2.704 
50 | 1.676 2.009 2.403 2.678 
60 | 1.671 2.000 2.390 2.660 
70 | 1.667 1.994 2.381 2.648 
80 | 1.664 1.990 2.374 2.639 
90 | 1.662 1.987 2.368 2.632 
100 | 1.660 1.984 2.364 2.626 
120 | 1.658 1.980 2.358 2.617 
oo | 1.645 1.960 2.327 2.576 
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TAB. 11.6 —- Table des quantiles d’ordre 0.95 d’une variable de Fisher à n1 et n2 degrés de liberté 


ni=l 2 3 4 5 6 7 8 9 10 12 14 16 20 30 co 

n2=1l | 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.9 245.4 246.5 248.0 250.1 254.3 
2 | 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.42 19.43 19.45 19.46 19.50 
3 | 10.13 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 8.745 8.715 8.692 8.660 8.617 8.526 
4 | 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5.912 5.873 5.844 5.803 5.746 5.628 
5 | 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 4.678 4.636 4.604 4.558 4.496 4.365 
6 | 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 4.000 3.956 3.922 3.874 3.808 3.669 
7 | 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 3.575 3.529 3.494 3.445 3.376 3.230 
8 | 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 3.284 3.237 3.202 3.150 3.079 2.928 
9 | 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 3.073 3.025 2.989 2.936 2.864 2.707 
10 | 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 2.913 2.865 2.828 2.774 2.700 2.538 
11 | 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 2.788 2.739 2.701 2.646 2.570 2.404 
12 | 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 2.687 2.637 2.599 2.544 2.466 2.296 
13 | 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 2.604 2.554 2.515 2.459 2.380 2.206 
14 | 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 2.534 2.484 2.445 2.388 2.308 2.131 
15 | 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 2.475 2.424 2.385 2.328 2.247 2.066 
16 | 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 2.425 2.373 2.333 2.276 2.194 2.010 
17 | 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 2.381 2.329 2.289 2.230 2.148 1.960 
18 | 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 2.342 2.290 2.250 2.191 2.107 1.917 
19 | 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 2.308 2.256 2.215 2.155 2.071 1.878 
20 | 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 2.278 2.225 2.184 2.124 2.039 1.843 
21 | 4325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 2.250 2.197 2.156 2.096 2.010 1.812 
22 | 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 2.226 2.173 2.131 2.071 1.984 1.783 
23 | 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 2.204 2.150 2.109 2.048 1.961 1.757 
24 | 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 2.183 2.130 2.088 2.027 1.939 1.733 
25 | 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 2.165 2.111 2.069 2.007 1.919 1.711 
26 | 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 2.148 2.094 2.052 1.990 1.901 1.691 
27 | 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 2.132 2.078 2.036 1.974 1.884 1.672 
28 | 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 2.118 2.064 2.021 1.959 1.869 1.654 
29 | 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177 2.104 2.050 2.007 1.945 1.854 1.638 
30 | 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 2.092 2.037 1.995 1.932 1.841 1.622 
32 | 4.149 3.295 2.901 2.668 2.512 2.399 2.313 2.244 2.189 2.142 2.070 2.015 1.972 1.908 1.817 1.594 
34 | 4.130 3.276 2.883 2.650 2.494 2.380 2.294 2.225 2.170 2.123 2.050 1.995 1.952 1.888 1.795 1.569 
36 | 4.113 3.259 2.866 2.634 2.477 2.364 2.277 2.209 2.153 2.106 2.033 1.977 1.934 1.870 1.776 1.547 
38 | 4.098 3.245 2.852 2.619 2.463 2.349 2.262 2.194 2.138 2.091 2.017 1.962 1.918 1.853 1.760 1.527 
40 | 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 2.003 1.948 1.904 1.839 1.744 1.509 
50 | 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026 1.952 1.895 1.850 1.784 1.687 1.438 
60 | 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993 1.917 1.860 1.815 1.748 1.649 1.389 
120 | 3.920 3.072 2.680 2.447 2.290 2.175 2.087 2.016 1.959 1.910 1.834 1.775 1.728 1.659 1.554 1.254 
co | 3.841 2.996 2.605 2.372 2.214 2.099 2.010 1.938 1.880 1.831 1.752 1.692 1.644 1.571 1.459 1.000 
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TAB. 11.7 —- Table des quantiles d’ordre 0.99 d’une variable de Fisher à n1 et n2 degrés de liberté 


ni=l 2 3 4 5 6 7 8 9 10 12 14 16 20 30 co 

n2=1 | 4052 5000 5403 5625 5764 5859 5928 5981 6022 6056 6106 6143 6170 6209 6261 6366 
2 | 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.44 99.45 99.47 99.50 
3 | 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.92 26.83 26.69 26.51 26.13 
4 | 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.25 14.15 14.02 13.84 13.46 
5 | 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.888 9.770 9.680 9.553 9.379 9.020 
6 | 13.75 10.93 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.605 7.519 7.396 7.229 6.880 
7 | 12.25 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.359 6.275 6.155 5.992 5.650 
8 | 11.26 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.559 5.477 5.359 5.198 4.859 
9 | 10.56 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 5.005 4.924 4.808 4.649 4.311 
10 | 10.04 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.601 4.520 4.405 4.247 3.909 
11 | 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.293 4.213 4.099 3.941 3.602 
12 | 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.052 3.972 3.858 3.701 3.361 
13 | 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.857 3.778 3.665 3.507 3.165 
14 | 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.698 3.619 3.505 3.348 3.004 
15 | 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.564 3.485 3.372 3.214 2.868 
16 | 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.451 3.372 3.259 3.101 2.753 
17 | 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.353 3.275 3.162 3.003 2.653 
18 | 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.269 3.190 3.077 2.919 2.566 
19 | 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.195 3.116 3.003 2.844 2.489 
20 | 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.130 3.051 2.938 2.778 2.421 
21 | 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.072 2.993 2.880 2.720 2.360 
22 | 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 3.019 2.941 2.827 2.667 2.305 
23 | 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.973 2.894 2.781 2.620 2.256 
24 | 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.930 2.852 2.738 2.577 2.211 
25 | 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.892 2.813 2.699 2.538 2.169 
26 | 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.857 2.778 2.664 2.503 2.131 
27 | 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.824 2.746 2.632 2.470 2.097 
28 | 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.795 2.716 2.602 2.440 2.064 
29 | 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.767 2.689 2.574 2.412 2.034 
30 | 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.742 2.663 2.549 2.386 2.006 
32 | 7.499 5.336 4.459 3.969 3.652 3.427 3.258 3.127 3.021 2.934 2.798 2.696 2.618 2.503 2.340 1.956 
34 | 7.444 5.289 4.416 3.927 3.611 3.386 3.218 3.087 2.981 2.894 2.758 2.657 2.578 2.463 2.299 1.911 
36 | 7.396 5.248 4.377 3.890 3.574 3.351 3.183 3.052 2.946 2.859 2.723 2.622 2.543 2.428 2.263 1.872 
38 | 7.353 5.211 4.343 3.858 3.542 3.319 3.152 3.021 2.915 2.828 2.692 2.591 2.512 2.397 2.232 1.837 
40 | 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.563 2.484 2.369 2.203 1.805 
50 | 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698 2.562 2.461 2.382 2.265 2.098 1.683 
60 | 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.496 2.394 2.315 2.198 2.028 1.601 
120 | 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.336 2.234 2.154 2.035 1.860 1.381 
co | 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321 2.185 2.082 2.000 1.878 1.696 1.000 
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TAB. 11.8 — Valeur critique du test de Durbin-Watson au seuil de 5% 


n R=T k =:2 RS k=—4 k=5 
di du di du di du di du di du 

15 1.08 1.36 | 0.95 1.54 | 0.82 1.75 | 0.69 1.97 | 0.56 2.21 
16 1.10 1.37 | 0.98 1.54 | 0.86 1.73 | 0.74 1.93 | 0.62 2.15 
17 1.13 1.38 | 1.02 1.54 | 0.90 1.71 | 0.78 1.90 | 0.67 2.10 
18 1.16 1.39 | 1.05 1.53 | 0.93 1.69 | 0.82 1.87 | 0.71 2.06 
19 1.18 1.40 | 1.08 1.53 | 0.97 1.68 | 0.86 1.85 | 0.75 2.02 
20 1.20 1.41 | 1.10 1.54 | 1.00 1.68 | 0.90 1.83 | 0.79 1.99 
21 1.22 1.42 | 1.13 1.54 | 1.03 1.67 | 0.93 1.81 | 0.83 1.96 
22 1.24 1.43 | 1.15 1.54 | 1.05 1.66 | 0.96 1.80 | 0.86 1.94 
23 1.26 1.44 | 1.17 1.54 | 1.08 1.66 | 0.99 1.79 | 0.90 1.92 
24 1.27 1.45 | 1.19 1.55 | 1.10 1.66 | 1.01 1.78 | 0.93 1.90 
25 1.29 1.45 | 1.21 1.55 | 1.12 1.66 | 1.04 1.77 | 0.95 1.89 
26 1.30 1.46 | 1.22 1.55 | 1.14 1.65 | 1.06 1.76 | 0.98 1.88 
27 1.32 1.47 | 1.24 1.56 | 1.16 1.65 | 1.08 1.76 | 1.01 1.86 
28 1.33 1.48 | 1.26 1.56 | 1.18 1.65 | 1.10 1.75 | 1.03 1.85 
29 1.34 1.48 | 1.27 1.56 | 1.20 1.65 | 1.12 1.74 | 1.05 1.84 
30 1.35 1.49 | 1.28 1.57 | 1.21 1.65 | 1.14 1.74 | 1.07 1.83 
31 1.36 1.50 | 1.30 1.57 | 1.23 1.65 | 1.16 1.74 | 1.09 1.83 
32 1.37 1.50 | 1.31 1.57 | 1.24 1.65 | 1.18 1.73 | 1.11 1.82 
33 1.38 1.51 | 1.32 1.58 | 1.26 1.65 | 1.19 1.73 | 1.13 1.81 
34 1.39 1.51 | 1.33 1.58 | 1.27 1.65 | 1.21 1.73 | 1.15 1.81 
35 1.40 1.52 | 1.34 1.58 | 1.28 1.65 | 1.22 1.73 | 1.16 1.80 
36 1.41 1.52 | 1.35 1.59 | 1.29 1.65 | 1.24 1.73 | 1.18 1.80 
37 1.42 1.53 | 1.36 1.59 | 1.31 1.66 | 1.25 1.72 | 1.19 1.80 
38 1.43 1.54 | 1.37 1.59 | 1.32 1.66 | 1.26 1.72 | 1.21 1.79 
39 1.43 1.54 | 1.38 1.60 | 1.33 1.66 | 1.27 1.72 | 1.22 1.79 
40 1.44 1.54 | 1.39 1.60 | 1.34 1.66 | 1.29 1.72 | 1.23 1.79 
45 1.48 1.57 | 1.43 1.62 | 1.38 1.67 | 1.34 1.72 | 1.29 1.78 
50 1.50 1.59 | 1.46 1.63 | 1.42 1.67 | 1.38 1.72 | 1.34 1.77 
55 1.53 1.60 | 1.49 1.64 | 1.45 1.68 | 1.41 1.72 | 1.38 1.77 
60 1.55 1.62 | 1.51 1.65 | 1.48 1.69 | 1.44 1.73 | 1.41 1.77 
65 1.57 1.63 | 1.54 1.66 | 1.50 1.70 | 1.47 1.73 | 1.44 1.77 
70 1.58 1.64 | 1.55 1.67 | 1.52 1.70 | 1.49 1.74 | 1.46 1.77 
75 1.60 1.65 | 1.57 1.68 | 1.54 1.71 | 1.51 1.74 | 1.49 1.77 
80 1.61 1.66 | 1.59 1.69 | 1.56 1.72 | 1.53 1.74 | 1.51 1.77 
85 1.62 1.67 | 1.60 1.70 | 1.57 1.72 | 1.55 1.75 | 1.52 1.77 
90 1.63 1.68 | 1.61 1.70 | 1.59 1.73 | 1.57 1.75 | 1.54 1.78 
95 1.64 1.69 | 1.62 1.71 | 1.60 1.73 | 1.58 1.75 | 1.56 1.78 
100 | 1.65 1.69 | 1.63 1.72 | 1.61 1.74 | 1.59 1.76 | 1.57 1.78 


k est le nombre de variables explicatives (constante exclue). 
n est la taille de l'échantillon. 
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TAB. 11.9 —- Quantiles du coefficient de corrélation de Pearson d’une variable aléatoire normale bivariée sous 
l'hypothèse que p = 0 


n ordre du quantile 

0.05 0.025 0.005  0.0005 
4 | 0.900 0.950 0.990 0.999 
5 | 0.805 0.878 0.959 0.991 
6 | 0.729 0.811 0.917 0.974 
7 | 0.669 0.754 0.875 0.951 
8 

9 


0.621 0.707 0.834 0.925 
0.582 0.666 0.798 0.898 


10 | 0.549 0.632 0.765 0.872 
11 | 0.521 0.602 0.735 0.847 
12 | 0.497 0.576 0.708 0.823 
13 | 0.476 0.553 0.684 0.801 
14 | 0.458 0.532 0.661 0.780 
15 | 0.441 0.514 0.641 0.760 
16 | 0.426 0.497 0.623 0.742 
17 | 0.412 0.482 0.606 0.725 
18 | 0.400 0.468 0.590 0.708 
19 | 0.389 0.456 0.575 0.693 


20 | 0.378 0.444 0.561 0.679 
21 | 0.369 0.433 0.549 0.665 
22 | 0.360 0.423 0.537 0.652 
23 | 0.352 0.413 0.526 0.640 
24 | 0.344 0.404 0.515 0.629 
25 | 0.337 0.396 0.505 0.618 
26 | 0.330 0.388 0.496 0.607 
27 | 0.323 0.381 0.487 0.597 
28 | 0.317 0.374 0.479 0.588 
29 | 0.311 0.367 0.471 0.579 


30 | 0.306 0.361 0.463 0.570 
35 | 0.283 0.334 0.430 0.532 
40 | 0.264 0.312 0.403 0.501 
45 | 0.248 0.294 0.380 0.474 
50 | 0.235 0.279 0.361 0.451 
60 | 0.214 0.254 0.330 0.414 
70 | 0.198 0.235 0.306 0.385 
80 | 0.185 0.220 0.286 0.361 
90 | 0.174 0.207 0.270 0.341 


100 | 0.165 0.197 0.256 0.324 
200 | 0.117 0.139 0.182 0.231 
300 | 0.095 0.113 0.149 0.189 
400 | 0.082 0.098 0.129 0.164 
500 | 0.074 0.088 0.115 0.147 
1000 | 0.052 0.062 O.081 0.104 


n est la taille de l’échantillon. 
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